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为 什么 要 写本 书 
R 语 言 是 什么 ? 
R 是 一 种 适用 于 统计 分 析 计 算 和 图 像 处 理 的 语言 ， 受 S 语 言 和 Scheme 语言 影响 发 展 而 来 。 早 期 R 是 基于 9 语言 的 一 个 CNU 项 目 ， 所 以 也 可 以 当 作 Ss 语 言 的 一 种 实现 ， 通 常用 9 语言 编写 的 代码 都 可 以 不 做 任 


何 修改 地 在 R 环 境 下 运行 。R 的 语法 来 自 ycheme， 作 为 一 款 诞生 于 20 世 纪 90 年 代 的 语言 ，R 已 经 成 为 统计 编程 语言 的 一 类 实现 方式 。 


R 编 程 语言 在 数字 分 析 与 机 器 学 习 领域 已 经 成 为 一 款 重要 的 工具 。 随 着 机 器 逐步 成 为 愈 发 核心 的 数据 生成 器 ， 该 语言 的 人 气 也 一 路 攀升 。 正 如 Tiobe、PyPL 以 及 Redmonk 等 编程 语言 人 气 排名 所 指 
出 ，R 语 言 所 受到 的 关注 程度 正在 快速 提升 。Rexer Analytics 发 布 的 2013 年 数据 挖 所 人员 调查 显示 ，70% 的 数据 挖 所 人 员 使 用 R 软 件 进 行 分 析 工 作 ， 其 中 有 24% 将 其 作为 主要 工具 。 这 些 结果 类 似 于 2013 年 
KDnuggets 调 查 的 结果 ， 该 调查 指出 有 61% 的 响应 者 表示 正在 使 用 R 处 理 分 析 、 数 据 挖掘 和 数据 科学 工作 。 相 比 前 一 年 ， 这 一 比例 上 升 了 16%。 


R 语 言 有 一 些 明 显 的 优势 : 

1) R 语 言 作为 一 款 开 源 软件 ， 是 完全 免费 的 ， 对 比 昂贵 的 SPSS 和 SAS 等 统计 软件 ， 这 无 疑 是 一 个 巨大 的 优势 。 

2) R 语 言 拥 有 一 个 庞大 的 社区 来 进行 维护 ， 庞 大 的 软件 包 生 态 系统 无 疑 是 R 语 言 最 为 突出 的 优势 之 一 。 

3) R 语 言 具备 可 扩展 能 力 且 拥有 丰富 的 功能 选项 ， 帮 助 开发 人 员 构 建 自 己 的 工具 及 方法 ， 从 而 顺利 实现 数据 分 析 。 

4) R 语 言 简单 易学 。 虽 与 C 语 言 之 类 的 程序 设计 语言 已 差别 很 大 〈 比 如 语言 结构 相对 松散 ， 使 用 变量 前 不 需要 明确 正式 定义 变量 类 型 等 ) ， 但 仍 保留 了 程序 设计 语言 的 基础 逻辑 与 自然 的 语言 风格 。 


从 R 的 普及 来 看 ， 国 外 的 普及 度 要 明显 好 于 国内 ， 与 咨 版 Windows 的 泛滥 会 影响 Linux 在 中 国 的 普及 一 样 ， 破 解 的 MATLAB 与 SPSS 的 存在 也 影响 了 R 在 中 国 的 使 用 。 但 在 国外 高 校 的 统计 系 ，R 几 了 乎 是 一 
门 必修 的 语言 ， 具 有 统治 性 的 地 位 。 在 工业 界 ， 作 为 互联 网 公司 潭 楚 的 Google 内 部 也 有 不 少 工程 使 用 R 进 行 数据 分 析 工 作 。 随 着 数据 挖掘 在 国内 的 发 展 ， 国 内 对 Ri 语言 的 需求 必 将 随 之 一 起 发 展 。 


忌 的 来 说 ，R 语 言 是 一 款 用 于 统计 分 析 、 数 据 可 视 化 和 预测 建 模 的 数据 分 析 软 件 ， 它 不 单单 只 是 一 门 语言 ， 更 是 一 个 数据 计算 与 分 析 的 环境 。R 支 持 几乎 所 有 数据 分 析 所 需 的 数据 处 理 、 统 计 模 型 和 图 
表 ， 支 持 大 量 的 第 三 方 功能 包 ， 涵 盖 了 从 统计 计算 到 机 器 学 习 ， 从 金融 分 析 到 生物 信息 ， 从 社会 网 络 分 析 到 自然 语言 处 理 ， 从 各 种 数据 库 各 种 语言 接口 到 高 性 能 计算 模型 等 内 容 。 随 着 大 数据 时 代 的 来 临 ， 
数据 挖掘 将 更 加 广泛 地 渗透 到 各 行 各 业 中 去 ， 而 R 语 言 作 为 数据 挖掘 里 的 热门 工具 ， 将 会 有 更 多 其 他 行业 的 人 加 入 到 R 语 言 的 使 用 者 行列 中 来 。R 语 言 的 使 用 课程 成 为 高 校 中 数学 与 统计 学 专业 的 重要 课程 将 


本 书 特色 


本 书 从 实际 应 用 出 发 ， 结 合 实例 及 应 用 场景 ， 深 入 浅 出 地 介绍 了 R 语 言 应 用 的 相关 知识 : R 语 言 的 安装 及 使 用 、 数 据 对 象 与 数据 读 写 、 常 用 数据 管理 、 图 形 探索 、 高 级 绘图 工具 及 常用 的 建 模 算法 在 R 语 
言 中 的 实现 方式 。 书 中 以 R 语 言 的 函数 应 用 为 主 ， 先 介绍 了 函数 的 应 用 场景 及 使 用 格式 ， 再 给 出 函数 的 应 用 实例 ， 最 后 对 函数 的 运行 结果 做 出 了 解释 ， 将 掌握 函数 应 用 的 所 需 知识 点 按照 实际 使 用 的 流程 展示 
出 来 。 


为 方便 理解 R 语 言 中 相关 函数 的 使 用 ， 本 书 提供 示例 代码 及 所 用 数据 等 相关 资源 下 载 ， 读 者 可 以 从 “ 泰 迪 杯 ” 全 国 数据 挖掘 挑战 赛 网 站 (http://www.tipdm.org/ts/747.jhtml) 免费 获取 。 也 可 以 通过 
热线 电话 (40068-40020) 、 企 业 QQ (40068-40020) 及 以 下 微 信 公众 号 咨询 获取 。 


张 良 均 《大 数据 挖掘 产品 与 服务 > 


本 书 适用 对 象 


. 开设 有 数据 挖 气 课 程 的 高 校 教师 和 学 生 。 


言 的 从 安装 到 使 用 的 一 系列 知识 ， 将 能 


目前 国内 不 少 高 校 将 数据 挖掘 引入 本 科教 学 中 ， 在 数学 、 计 算 机 、 自 动 化 、 电 子 信息 、 金 融 等 专业 开设 了 数据 挖掘 技术 相关 的 课程 ， 但 目前 这 一 课程 的 教学 工具 仍然 为 ?PSS、SAs 等 传统 统计 工具 ， 并 
没有 使 用 R 语 言 作 为 挖掘 工具 。 本 书 提 供 了 有 关 R 语 言 有 效 指 导 高 校 教 师 和 学 生 使 用 R 语 言 工 具 进 行 数 据 挖 掘 。 
“ 数据 挖掘 开发 人 员 。 


这 类 人 员 可 以 在 理解 数据 挖掘 应 用 需求 和 设计 方案 的 基础 上 ， 结 合 书 中 提供 的 R 语 言 的 使 用 方法 快速 实现 数据 挖掘 应 用 的 编程 。 
“ 进行 数据 挖掘 应 用 研究 的 科研 人 员 。 


许多 科研 院 所 为 了 更 好 地 对 科研 工作 进行 管理 ， 纷 纷 开发 了 适应 自身 特点 的 科研 业务 管理 系统 ， 并 在 使 用 过 程 中 积累 了 大 量 的 科研 信息 数据 。R 语 言 可 以 提供 一 个 优异 的 环境 对 这 些 数 据 进行 挖掘 分 析 应 
用 。 
关注 高 级 数据 分 析 的 人 员 。 


R 语 言 作为 一 个 专业 的 数据 分 析 软 件 ， 能 为 数据 分 析 人 员 提 供 可 靠 的 依据 。 


如 何 阅读 本 书 


本 书 主要 分 为 三 个 部 分 ， 基 础 篇 、 建 模 应 用 篇 和 Rattle 篇 。 基 础 篇 介绍 了 有 关 R 语 言 的 安装 与 使 用 、R 语 言 中 的 数据 结构 、 常 用 操作 和 绘图 功能 等 基础 功能 。 
用 的 建 模 方法 在 R 语 言 中 的 实现 函数 ， 并 对 输出 结果 进行 了 解释 ， 有 助 于 读者 快速 掌握 应 用 R 语 言 进行 分 
法 。 


建 模 应 用 篇 主要 介绍 了 目前 在 数据 挖掘 中 常 
析 挖 掘 建 模 的 方法 。 读 者 可 结合 本 书 提供 的 示例 代码 及 数据 进行 上 机 实验 ， 快 速 掌握 R 语 言 的 使 用 方 


第 一 部 分 是 基础 篇 (第 1~5 章 ) ， 第 1 章 主要 介绍 了 R 语 言及 图 形 操作 工具 Rstudio 的 安装 及 使 用 方法 ， 第 2 章 对 R 语 言 中 的 数据 类 型 和 数据 对 象 及 不 同 格式 的 数据 读 入 和 导出 R 语 言 进行 了 介绍 ， 第 3 章 摘 
述 了 R 语 言 中 对 数据 所 能 做 的 带 用 操作 ， 包 括 变量 的 重 命名 、 缺 失 值 分 析 、 排 序 、 随 机 抽样 等 ， 第 4、5 章 主要 对 R 语 言 的 绘图 功能 进行 了 介绍 
介绍 了 一 些 基于 R 语 言 的 可 用 于 生成 交互 式 图 形 的 软件 包 。 


， 涵 盖 常 用 图 形 如 散 点 图 、 直 方 图 、 条 形 图 、 箱 线 图 等 ， 且 一 并 


第 二 部 分 是 建 模 应 用 篇 (第 6~ 10 章 ) ， 主 要 对 数据 挖掘 中 常用 算法 的 函数 在 R 语 言 中 的 使 用 方法 及 其 结果 进行 了 介绍 ， 涵 盖 了 目前 数据 挖掘 的 5 大 类 算法 ， 包 括 分 类 与 预测 
推荐 和 时 间 序 列 。 按 照 从 模型 建立 到 模型 评价 架构 的 顺序 进行 介绍 ， 使 读者 能 熟练 地 掌握 从 建 模 到 对 模型 评价 的 完 


、 聚 类 分 析 、 关 联 规则 、 智 能 
完整 建 模 过 程 。 


第 三 部 分 是 Rattle 篇 (第 11 章 ) ， 介 绍 了 一 个 R 语 言 的 图 形 界面 工 具 Rattle， 此 工具 能 够 在 一 个 图 形 化 的 界面 上 对 本 书 介绍 的 R 语 言 功能 进行 操作 ， 使 读者 能 更 好 地 体验 到 使 用 R 语 言 进行 数据 挖掘 的 整个 


流程 。 
勘误 和 支持 


除 封面 署名 作者 外 ， 参 加 本 书 编写 工作 的 还 有 黄 博 、 陈 婷 婷 、 王 路 、 陈 玉 辉 、 杨 征 、 施 兴 、 徐 英 刚 、 郑 泽 如 、 张 乐 儿 、 黄 东 鹤 等 。 由 于 水 平 有 限 ， 编 写 时 间 仓 促 ， 书 中 难免 会 出 现 一 些 错 误 或 者 不 准确 
的 地 方 ， 朋 请 读者 批评 指正 。 本 书 内 容 的 更 新 将 及 时 在 “ 泰 迪 杯 ”全 国 数据 挖掘 挑战 赛 网 站 (www.tipdm.org) 上 发 布 。 读 者 可 通过 微 信 公 众 号 TipDM ( 微 信号 : TipDataMining) 、TipDM 官 网 
(www.tipdm.com) 反馈 有 关 问 题 。 也 可 通过 热线 电话 (40068-40020) 或 企业 QQ (40068-40020) 进行 在 线 咨询 。 


如 果 你 有 更 多 的 宝贵 意见 ， 欢 迎 发 送 邮 件 至 邮箱 13560356095@ qq.com， 期 待 能 够 得 到 你 的 真挚 反馈 。 
致谢 


本 书 编写 过 程 中 得 到 了 广大 高 校 师 生 的 大 力 支 持 ， 在 此 谨 向 华南 农业 大 学 、 华 南 师范 大 学 、 广 东 工 业 大 学 、 广 东 技 术 师 范 学 院 、 华 南 理工 大 学 、 韩 山 师范 学 院 、 中 山大 学 、 贵 州 师范 学 院 等 单位 给 予 支 
持 的 领导 及 师 生 致 以 深 深 的 谢意 。 


在 本 书 编辑 和 出 版 过 程 中 还 得 到 了 参与 “ 泰 迪 杯 ”全 国 数 据 挖掘 挑战 赛 (http://www.tipdm.org) 的 众多 师 生 及 机 械 工 业 出 版 社 杨 福 川 老师 无 私 的 帮助 与 支持 ， 在 此 一 并 表示 感谢 。 
张 良 均 
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图 第 1 章 ， 有 语言 的 安装 与 使 用 
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R 语 言 是 一 种 为 统计 计算 和 图 形 显示 而 设计 的 语言 环境 ， 是 贝尔 实验 室 (Bell Laboratory) 的 Rick Becker, John Chambers 和 Allan Wilks 开 发 的 语言 的 一 种 实现 ， 提 供 了 一 系列 统计 和 图 形 显示 工 
具 。 它 是 面向 对 象 的 一 种 编程 语言 ， 是 一 套 开源 的 数据 分 析 和 解决 方案 ， 由 一 个 庞大 且 活 路 的 全 球 性 研究 型 社区 维护 。 它 具有 下 列 优势 : 


(1) 作为 一 个 免费 的 统计 软件 ，R 可 运行 于 多 种 平台 之 上 ， 包 括 Windows、UNIX、MacOs 和 Linux。 

(2) R 可 以 轻松 地 从 各 种 类 型 的 数据 源 导 入 数据 ， 包 括 文本 文件 、 数 据 库 管理 系统 、 统 计 软件 ， 旋 至 专门 的 数据 仓库 。 它 同样 可 以 将 数据 输出 并 写 入 这 些 系统 中 。 
(3) R 具 有 较 高 的 开放 性 ， 不 仅 提 供 功能 丰富 的 内 置 函 数 供用 户 调 用 ， 也 人 允许 用 户 编 写 自 定义 函数 来 扩充 功能 。 

(4) R 拥 有 顶尖 水 准 的 制图 功能 。 如 果 希 望 复杂 数据 可 视 化 ， 那 么 R 拥 有 最 全 面 且 最 强大 的 一 系列 可 用 功能 。 


R 是 一 个 体系 庞大 的 应 用 软件 ， 主 要 包括 核心 的 R 标 准 包 和 各 专业 领域 的 其 他 包 。R 在 数据 分 析 、 数 据 挖掘 领域 具有 特别 优势 ， 本 书 针对 数据 分 析 和 挖掘 相关 的 内 容 采 用 原理 加 实战 的 方式 来 对 R 相 关 函 数 


进行 介绍 。 本 章 主 要 简单 介绍 R 软 件 的 安装 及 升级 、 一 些 数 据 分 析 和 挖掘 相关 的 包 以 及 常用 函数 的 使 用 。 在 后 续 的 章节 中 ， 首 先 介 绍 R 中 的 数据 对 象 及 数据 结构 ， 然 后 选取 R 中 常用 的 数据 管理 函数 及 绘图 函 
数 进行 演示 ， 最 后 介绍 在 数据 挖掘 中 经 常用 到 的 几 种 类 型 的 挖掘 建 模 的 函数 ， 读 者 可 以 通过 本 书 提供 的 R 相 关 实 例 切 实感 受 R 在 数据 挖掘 方面 的 强大 功能 。 


1.14 RRRS 


本 书 使 用 的 R 版 本 为 R 3.2.3。 根 据 操作 系统 不 同 ， 可 选择 安装 64 位 或 32 位 版 本 。 安 装 时 直接 运行 下 载 的 R-3.2.3-win.exe。 可 以 在 其 主页 (http://www.r-project.org/) 上 的 R 综 合资 料 网 
(Comprehensive R Archive Network, CRAN) 获得 相关 资源 。Linux、Mac OS X 和 Windows 都 有 相应 编译 好 的 二 进 制版 本 ， 根 据 相 应 平台 的 安装 说 明 进 行 安装 即 可 。 


安装 好 R 后 ， 单 击 安装 目录 中 bin 目 录 下 的 Rgui.exe 启 动 R， 打 开 如 图 1-1 所 示 的 界面 。 


R version 3.2.3 (2015-12-10) -- "Wooden Christmas-Tree" 
Copyright (C) 2015 The R Foundation for Statistical Computing 
Platform: x86 64-w64-mingw32/x64 (64-bit) 


R 是 上 自由 软件 ， 不 带 任何 担保 。 
在 某 些 条 件 下 你 可 以 将 其 自由 散布 . 
Fi'iicense ()' ak 'licence tt 来 看 散布 的 详细 条 件 。 


R 是 个 台 作 计划 ， 有 许多 人 为 之 做 出 了 贡献 . 
用 ' contributors () ' 来 看 合作 者 的 详细 情况 
用 'citation() ' 会 告诉 你 如 何在 出 版 物 中 正确 地 引用 R 或 R 程 序 包 .。 


Fi'demo() ' 来 看 一 些 示 范 程 序 ， 用 'help() ' 来 阅读 在 线 帮 助 文 件 ， 或 
用 'help.start()' JS XT HTMLjiU 5 SROKCB FA. 
Fi'a() GR HIR. 


> | 


图 1-1 R 3.2.3 初 始 界 面 


为 了 方便 使 用 R， 可 以 使 用 免费 的 图 形 界面 编辑 器 RStudio， 可 从 http://www.rstudio.com/products/rstudio/download/ 中 下 载 ， 根 据 本 机 操作 系统 选择 相应 版 本 自行 下 载 安装 。 安 装 RStudio 后 ， 可 
以 选择 从 安装 目录 或 者 “开始 ”菜单 栏 中 启动 。 


R 的 升级 通常 是 通过 从 CRAN (http://cran.r-project.org/bin/) 上 下 载 和 安装 最 新 版 的 R， 这 种 方式 需要 重新 设置 各 种 自 定 义 选 项 ， 包 括 之 前 安装 的 扩展 包 。 可 以 将 R 目 录 下 etc 文 件 夹 中 的 Rprofile.site 
文件 及 R 目 录 下 的 library 文 件 夹 保存 到 其 他 的 地 方 ， 待 安装 新 版 本 的 R 后 ， 移 动 到 相应 的 位 置 进行 覆盖 即 可 。 


R 作 为 一 个 开放 式 的 平台 ， 在 Windows 系 统 上 有 一 种 更 加 方便 的 更 新 R 的 方式 ， 运 行 以 下 代码 : 


install.packages ("installr") 
require (installr) #load / install4load installr 
updateR () 


之 后 按照 提示 即 可 很 方便 地 将 R 升 级 至 最 新 的 版 本 。 


安装 最 新 版 本 的 R 后 ， 在 Windows 系 统 上 并 不 会 自动 覆盖 旧版 本 的 R， 即 允许 系统 中 存在 多 种 版 本 的 R， 可 以 通过 控制 面板 卸载 旧版 本 的 R。 而 在 Linux 和 Mac 系 统 上 ， 新 版 的 R 会 覆盖 老 版 本 。 在 Mac 上 
要 删除 剩余 的 东西 ， 可 以 用 Finder 打 开 /LibrarWFrameworksR.frameworks/versions/， 删 除 其 中 旧版 本 的 文件 夹 。 在 Linux 系 统 上 ， 不 需要 做 任何 额外 的 操作 。 
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1.2.1 RETE 


R 软 件 的 界面 与 其 他 编程 软件 相 类 似 ， 由 一 些 菜单 和 快捷 按钮 组 成 ， 如 图 1-2 所 示 。 快 捷 按 钮 下 面 的 窗口 便 是 命令 输入 窗口 ， 它 也 是 部 分 运算 结果 的 输出 窗口 ， 有 些 运算 结果 (如 图 形 ) 则 会 在 新 建 的 窗 
口中 输出 。 主 窗口 上 方 的 一 些 文字 是 刚 运行 R 时 出 现 的 一 些 说 明和 指引 ， 文 字 下 的 “> ”符号 便 是 R 的 命令 提示 符 ， 在 其 后 可 输入 命令 。R 一 般 采 用 交互 式 工作 方式 ， 在 命令 提示 符 后 输入 命令 ， 回 车 后 便 会 输 
出 计算 结果 。 当 然 也 可 将 所 有 的 命令 建立 成 一 个 文件 ， 运 行 这 个 文件 的 全 部 或 部 分 来 执行 相应 的 命令 ， 从 而 得 到 相应 的 结果 。 


IR RGui (64-bit) 
Re 
Les BIeOSS | 2 工具 栏 


R version 3.2.3 (2015-12-10) -- "Wooden Christmas-Tree" 
Copyright (C) 2015 The R Foundation for Statistical Computing 
Platform: x86 64-w64-mingw32/x64 (64-bit) 


R 是 自由 软件 ， 不 带 任 何 担保 。- 
在 某 些 条 件 下 你 可 以 将 其 自由 散布 。 
Fi'iicense()'SEk'licence() ' 来 看 散布 的 详细 条 件 . 


R 是 个 合作 计划 ， 有 许多 人 为 之 做 出 了 贡献 . 
用 'contributors E 来 看 合作 者 的 详细 情况 
用 'citation() ' 会 告诉 你 如 何在 出 版 物 中 正确 地 引用 R 或 R 程 序 包 . 


用 'demo() ' 来 看 一 些 示 范 程 序 ， 用 'help() ' 来 阅读 在 线 帮 助 文件 ， 或 
ï Da P 通过 HTML 浏 览 器 来 看 帮助 文件 。 
'qo' R. 


> 


Ø1-2 R3.2.3 操 作 界 面 


菜单 栏 位 于 工作 环境 的 最 上 方 。 文 件 (File) 菜单 可 以 实现 以 下 功能 : 输入 R 人 代码、 建立 新 的 程序 脚本 、 打 开 程 序 脚 本 、 显 示 文 件 、 载 入 工作 空间 、 保 存 工作 空间 、 载 入 历史 、 保 存 历 史 、 改 变 当前 目 
录 、 打 印 、 保 存 到 文件 以 及 退出 ; 编辑 (Edit) 菜单 可 以 实现 复制 、 粘 贴 、 清 除 控制 台 和 数据 编辑 等 功能 ; 视图 (View) 菜单 可 以 选择 是 否 显示 工具 栏 ;其 他 (Misc) 菜单 可 以 实现 中 断 目 前 计算 、 缓 冲 输 
出 及 列 出 目标 对 象 等 功能 ; 程序 包 (Packages) 菜单 可 以 实现 载 入 程序 包 、 设 定 CRAN 镜 像 、 安 装 以 及 更 新 程序 包 等 功能 ; 窗口 (Windows) 菜单 可 以 选择 将 所 有 窗口 层 蔷 或 者 平 铺 ; 帮助 (Help) 菜单 
提供 R 的 常见 问答 和 帮助 途径 。 当 执行 不 同 的 窗口 操作 时 ， 菜 单 的 内 容 会 发 生 不 同 的 变化 。 例 如 ， 打 开 R 文 件 或 一 个 编写 好 的 R 遂 数 后 ， 菜 单 栏 就 会 缺失 视图 (View) 、 其 他 (Misc) 两 个 菜单 。 


工具 栏 从 左 至 右 可 以 依次 进行 打开 程序 脚本 、 载 入 映像 、 保 存 映像 、 复 制 、 粘 贴 、 复 制 和 粘贴 、 终 止 目前 计算 以 及 打印 的 操作 。 当 打开 R 文 件 或 一 个 编写 好 的 R 函 数 时 ， 工 具 栏 会 发 生 相应 的 变化 ， 此 时 
的 快捷 按钮 从 左 至 右 依 次 为 打开 程序 脚本 、 保 存 映像 、 运 行当 前 行 代码 或 所 选 代码 、 返 回 主 界面 以 及 打印 。 


命令 窗口 是 R 进 行 工作 的 窗口 ， 也 是 实现 R 各 种 功能 的 窗口 。 其 中 的 “>” 是 命令 提示 竺 ， 表 示 R 处 于 准备 编辑 的 状态 ， 用 户 可 以 直接 在 命令 提示 符 后 输入 命令 语句 ， 按 “Enter” 键 执行 。 
1.2.2. RStudio 窗 口 介绍 


RStudio 的 启动 界面 如 图 1-3 所 示 ， 由 代码 编辑 、 命 令 控制 台 、 资 源 栏 和 其 他 栏 组 合 而 成 。 


File Edit Code View Plots Session Build Debug Tools Help 


03 Untitled8* x 09) Untitled9* x — C JUntitlediO* x | @)111.R x 6 ]Untitled11 x 

[:J [Source on Save a "| 组 [=#Run S+ | | $Source CT oj E Import Dataset» | 3 Clear C 
天 Global Environment + 
Data 


代码 编辑 Qw E 159 obs. of 18 variables 


e » 2| a 
R Data Import/Export ~ 


R Data Import/Export 


Table of Contents 
Console d:/Program Files/RStudio/ — 
> 


其 他 栏 


1.1.1 Encodngs 
1.2 Export to text files 
1.3 XML 
2 Spreadsheet-like data 
2.1 Variations on read.table 
2.2 Fixed-width-format files 
2.3 Data Inter e Format (DIF 
2.4 Using scan directly 
2.5 Re-shaping data 
2.6 Flat contingency tables 


EJ1-3 RStudio/& Ad 


代码 栏 可 以 编写 代码 ， 以 及 打开 R 脚 本 或 者 txt 文 本 。 创 建新 的 文件 可 以 从 File-> New 中 选择 ， 可 以 从 目录 File->Open 打 开 文 件 或 者 从 Open Recent 目 录 中 打开 最 近 的 文件 。 运 行文 件 可 以 选择 相应 的 代 
码 ， 单 击 Run 按 钮 。 


命令 控制 台 : 代码 运行 后 ， 控 制 台 会 显示 相应 的 代码 或 者 返回 结果 。 也 可 以 在 命令 控制 台 单独 输入 命令 ， 和 R 的 命令 模式 相同 。 


其 他 栏 是 有 关于 R 使 用 方面 的 显示 栏 。 可 以 在 Packages 目 录 下 安装 以 及 加 载 R 包 ( 包 安装 好 后 ， 并 不 可 以 直接 使 用 ， 如 果 需 要 使 用 包 ， 必 须 在 每 次 使 用 前 将 包 加 载 到 内 存 中 ， 可 以 直接 选择 包 或 者 在 控 
制 台 输入 library (package name) 命令 ) 。Help 目 录 下 是 R 相 天 函数 或 者 命令 的 帮助 。Plot 目 录 下 显示 图 形 相 天 方面 的 描述 。 


1.233 R 常 用 操作 
(1) help 
功能 : 提供 R 函 数 和 R 文 件 的 在 线 式 帮助 。 


在 命令 窗口 输入 help (HAE) ， 或 ” 国 数 名 ， 按 “Enter” 键 执行 ， 或 者 在 R 的 帮助 (Help) 菜单 下 的 Search Help 弹 出 框 中 输入 函数 名 ， 打 开 帮 助 浏览 器 。 帮 助 浏览 器 是 R 自 带 的 帮助 系统 ， 是 学 习 R 
的 一 个 非常 有 用 的 工具 。 例 如 ， 要 了 解 plot 冰 数 的 使 用 ， 可 以 在 命令 窗口 输入 help (plot) ， 或 ? plot， 按 “Enter” 键 执行 ， 或 者 在 search Help 弹 出 框 中 输入 plot， 如 图 1-4 所 示 。 


plot {graphics} R Documentation 六 


Generic X-Y Plotting 


Description 


Generic function for plotting of R objects. For more details about the graphical parameter arguments, see par. 


For simple scatter plots, plot .default will be used. However, there are plot methods for many R objects, 
including functions, data.frames, density objects, etc. Use methods (plot) and the documentation for these. 


Usage 
plot(x, V, 


Arguments 


the coordinates of points in the plot. Alternatively, a single plotting structure, function or any R object with a 
plot method can be provided. 


the y coordinates of points in the plot, optional 1f x 1s an appropriate structure. 


- Arguments to be passed to methods, such as graphical parameters (see par). Many methods will accept the 
following arguments: 


type 


图 1-4 R 帮 助 浏览 器 


使 用 帮助 主要 包括 6 部 分 内 容 : KAA (Description) 部 分 描述 函数 的 主要 功能 ; 用 法 (Usage) 部 分 给 出 了 plot 函 数 的 调用 方法 ; 参数 (Arguments) 部 分 给 出 输入 参数 的 详细 解释 ， 包 括 输入 参 
数 的 取 值 范围 、 数 据 格 式 等 ; 详情 (Details) 部 分 给 出 了 和 该 函数 相关 的 信息 ;其 他 (See Also) 则 提供 了 与 该 函数 相关 的 其 他 函数 的 链接 ; 例子 (Examples) 部 分 给 出 plot 函 数 的 常用 例子 ， 用 户 可 以 直 
接 运 行 示例 程序 得 到 结果 。 有 些 帮助 文档 还 包括 输出 参数 (Value) 部 分 ， 给 出 输出 参数 的 详细 描述 ， 类 似 输入 参数 ; 参考 文献 (References) 部 分 给 出 有 关 学 者 对 该 函数 的 研究 文献 。 


使 用 R 的 帮助 系统 是 一 种 快速 学 习 和 掌握 R 的 有 效 方法 。 下 面 以 绘制 一 个 给 定 的 时 序 y 的 时 序 图 为 例 进行 说 明 。R 中 最 基本 的 绘图 命令 是 plot， 在 帮助 系统 中 查找 plot， 查 看 其 基本 语法 ， 找 到 和 自己 需求 
相关 的 语法 ， 这 里 使 用 plot (x, y) 语法 即 可 。 接 下 来 查看 其 语法 详细 解释 ， 由 于 这 里 的 y 是 一 个 时 序 向 量 ， 直 接 调 用 即 可 。 然 后 编写 脚本 代码 ， 运 行程 序 ， 即 可 得 到 所 要 的 时 序 图 。 当 然 在 查看 完 语法 的 详 
细 解 释 后 ， 还 可 以 查看 其 示例 程序 ， 直 接 拷贝 其 代码 片段 到 命令 窗口 执行 ， 查 看 结果 。 这 样 就 不 会 对 plot 函 数 只 停留 在 简单 理解 的 水 平 上 。 最 后 ， 针 对 所 作 的 时 序 图 ， 如 果 需 要 进一步 调整 ， 如 设置 标题 、x 
轴 、y 轴 等 信息 ， 还 可 以 在 其 他 (See Also) 中 查询 到 相关 的 函数 。 


(2) Ctrl+L 

. 功能 : 清除 命令 窗 中 的 所 有 显示 内 容 。 

(3) rm (listzls () ) 

. 功能 : 清除 R 工 作 空间 中 的 内 存 变 量 。 

一 般 利 用 rm (list=ls () ) 命令 与 gc () 命令 ， 清 除 内 存 变 量 并 释放 内 人 存 空 间 。 

(4) install.packages, library 

: 功能 : installpackages () 用 来 下 载 和 安装 包 ; library () 9E JC DUST AETA PAIE E, ATARATE, mAAR PA E.o 


还 可 以 使 用 Rstudio 的 图 形 界 面 来 安装 和 加 载 包 ， 如 图 1-5 所 示 。 选 中 其 他 栏 中 的 Packages 目 录 ， 单 击 Install 按 钮 弹出 安装 对 话 框 ， 选 择 安装 来 源 及 安装 路 径 ， 如 图 1-6 所 示 。 单 击 Update 按 钮 可 更 新 已 
经 安装 的 包 。 勾 选 包 前 面 的 方 框 即 可 加 载 相应 的 包 。 


Ble dt Code -WMew lots Session -Belld -Debeg Took Help 


Q ) Untitled1 x 


B F]seureonswe | Q 天 -| i1 ($?*|*Soure ~ | Cf E EP Import Dataset- x © 
1 | 


f} Global Environment - 


Environment is empty 


(Top Level) $ R Script = 


[E a JE 


R is free software and comes with ABSOLUTELY NO WARRANTY. Name Description 
You are welcome to redistribute it under certain conditions. System Library 
Type 'license()' or 'licence()' for distribution details. 


acepack ace() and avas() for selecting regression 
transformations 


AMORE A MORE flexible neural network package 


aplpack Another Plot PACKage: stem.leaf, 
bagplot, faces, spin3R, plotsummary, 
Type 'demo()' for some demos, 'help()' for on-line help, or DP Ee meg X 


lothulls, and some slider functions 
'"help.start()' for an HTML browser interface to help. zz P 
Type 'qQ' to quit R. EN — 


R is a collaborative project with many contributors. 
Type 'contributors()' for more information and 
'citation()' on how to cite R or R packages in publications. 


Mining Association Rules and Frequent 
Iternsets 


arulesViz Visualizing Association Rules and 
Frequent Itemsets 


图 1-5 RStudio 包 安装 界面 


(5) getwd、setwd 
获取 或 者 设置 当前 工作 目录 的 位 置 。 


(6) save, load 


: 功能 : save 将 R 工 作 空 间 中 的 指定 对 象 保存 到 指定 的 文件 中 ，load 从 磁盘 文件 中 读 取 一 个 工作 空间 到 当前 会 话 中 。 


(m Configuring Repositories 


Packages (separate multiple with space or comma): 


Install to Library: 


[V [Install dependencies 


图 1-6 ”安装 对 话 框 


(7) source, sink 


: 功能 : source ("filename") 可 在 当前 回话 中 执行 一 个 脚本 ; sink ("filename") 将 输出 重 定向 到 文件 filename 中 。 默 认 情 况 下 ， 如 果 文 件 已 经 存在 ， 则 它 的 内 容 将 被 履 盖 ; 使 用 参数 append=TRUE 可 以 将 
文本 追加 到 文件 后 ; 参数 split=TRUE 可 将 输出 同时 发 送 到 屏幕 和 输出 文件 中 。 不 加 参数 调用 的 命令 sink () 仅 向 屏幕 返回 输出 结果 。 


人 
. 功能 : R 使 用 <-， 而 不 是 传统 的 = 作为 赋值 符号 。R 语 自由 函数 和 赋值 构成 。 


例如 以 下 语句 : 


x«-c (1:10) 


创建 了 一 个 名 为 x 的 向 量 对 象 ， 它 包含 一 个 1~10 的 序列 。 


R 是 一 种 基于 对 象 (Object) 的 语言 ， 所 以 用 户 在 R 语 言 中 接触 到 的 每 样 东西 都 是 一 个 对 象 ， 一 串 数 值 向 量 是 一 个 对 象 ， 一 个 函数 是 一 个 对 象 ， 一 个 图 形 也 是 一 个 对 象 。 基 于 对 象 的 编程 (OOP) 就 是 在 
定义 类 的 基础 上 ， 创 建 与 操作 对 象 。 


R 允 许 使 用 = 为 对 象 赋 值 。 但 是 这 样 写 的 R 程 序 并 不 多 ， 因 为 它 不 是 标准 语法 ， 在 某 些 情况 下 ， 用 等 号 赋值 会 出 现 问 题 。 还 可 以 反 转 赋值 方向 。 例 如 ，c (1: 10) ->x 与 上 面 的 语句 等 价 。 


1.3”R 数 据 分 析 包 
R 包 主要 包含 的 类 别 有 空 间 数 据 分 析 类 、 机 器 学 习 与 统计 学 习 类 、 多 元 统计 类 、 药 物 动力 学 数据 分 析 类 、 计 量 经 济 类 、 人 金融 分 析 类 、 并 行 计算 类 、 数 据 库 访问 类 。 每 个 类 别 都 有 相应 的 R 包 来 实现 其 功 
能 。 比 如 机 器 学 习 与 统计 学 习 类 别 就 包含 实现 分 类 、 聚 类 、 关 联 规则 、 时 间 序 列 分 析 等 功能 的 R 包 。 
R 在 数据 挖掘 领域 也 提供 了 足够 的 支持 ， 比 如 分 类 、 聚 类 、 关 联 规则 挖掘 等 ， 通 过 加 载 不 同 的 R 包 就 能 够 实现 相应 的 数据 挖 扬 功能 ， 如 表 1-1 所 示 。 
表 1-1 RR 数据 挖掘 相关 包 
功能 函数 及 加 载 包 
nnet) 需要 加 载 BP 神经 网 络 nnet 包 : randomForest() 需要 加 载 随 机 森林 randomForest 包 ; svmO 


分 类 与 预测 NR Eust eem de 
iie IZ e1071 £2; tree) 需要 加 载 CRAT 决策 树 tree 包 等 


(££) 
功能 ER 25 nik el 
聚 类 分 析 hclust() 国 数 kmeans() PAZALTE stats 包 中 
关联 规则 apriori() 需要 加 我 arules 包 
时 间 序 列 arima() 需要 加 载 forecast, tseries 包 
分 类 与 预测 是 数据 挖掘 领域 研究 的 主要 问题 之 一 ， 分 类 器 作为 解决 问题 的 工具 一 直 是 研究 的 热点 。 常 用 的 分 类 器 有 神经 网 络 、 随 机 森林 、 支 持 向 量 机 、 决 策 树 等 ， 这 些 分 类 器 都 有 各 自 的 性 能 特点 。 


nnet 包 执行 单 隐 层 前 馈 神经 网 络 ，nnet () 函数 涉及 的 主要 参数 有 隐 层 节点 数 (size) 、 节 点 权重 (weights). RARA, (maxit) 等 ， 为 了 达到 最 好 的 分 类 效果 ， 这 些 都 需要 用 户 根据 经 验 或 者 
不 断 地 党 试 来 确定 。 随 机 森林 分 类 器 利用 基于 Breiman 随 机 森林 理论 的 R 语 言 软件 包 randomForest 中 的 randomForest () 函数 来 实现 ， 需 要 设置 三 个 主要 的 参数 : 森林 中 决策 树 的 数量 (ntree) 、 内 部 节 
点 随机 选择 属性 的 个 数 (mtry) 及 终 节点 的 最 小 样本 数 (nodesize) 。 


支持 向 量 机 分 类 器 采用 R 语 言 软件 包 e1071 实 现 ， 该 软件 包 是 以 台湾 大 学 林 智 仁 教授 的 libsvm 源 代码 为 基础 开发 的 。svm () 函数 提供 了 R 与 LIBSVM 的 接口 ， 涉 及 的 参数 主要 有 类 型 (type, "C" SEI 
支持 向 量 机 分 类 ，“eps-regression” 实 现 支 持 向 量 机 回归 ) 、 核 函数 (kernel) 。SVM 包 含 4 种 主要 的 核 函 数 : 线性 核 函 数 (Linear) 、 多 项 式 核 函 数 (Polynomial) 、 径 向 基 核 函数 (RBF) 以 及 
Sigmoid 核 浮 数 。 一 般 情况 下 会 选择 径 向 基 核 浮 数 ， 这 主要 源 于 : @@ 线 性 核 函 数 只 能 处 理 线性 关系 ， 且 被 证 明 是 径 向 基 核 国 数 的 一 个 特例 ; @Sigmoid 核 浮 数 在 某 些 参数 上 近似 径 向 基 核 函数 的 功能 ， 径 向 
基 核 函数 取 一 定 参 数 也 可 得 到 Sigmoid 核 函数 的 性 能 ;，@ 多 项 式 核 浮 数 参数 较 多 ， 不 易于 参数 优选 。 而 径 向 基 核 肖 数 支持 向 量 机 包含 两 个 重要 的 参数 : 惩罚 参数 Cost 和 核 参数 Gamma，tune () 函数 可 以 
为 两 者 进行 网 格 寻 优 (Grid-search) 确定 最 优 值 。 


常用 的 聚 类 方法 有 系统 聚 类 与 K-Means 聚 类 。 系 统 聚 类 可 以 使 用 hclust () 函数 实现 ， 涉 及 的 参数 有 距离 矩阵 (d) 和 系统 聚 类 方法 (method) ， 其 中 距离 矩阵 可 以 使 用 dist () 函数 求 得 ， 常 用 的 系 
统 聚 类 方法 有 最 短 距 离 法 (single) 、 最 长 距离 法 (complete) 、 类 平均 法 (average) 、 中 间距 离 法 (median) 、 重 心 法 (centroid) 以 及 Ward 法 (ward) 。K-Means 法 是 一 种 快速 聚 类 法 ， 可 以 使 用 
kmeans () 函数 实现 ， 涉 及 的 主要 参数 为 聚 类 数 (centers) 。 


K-Means 法 和 系统 聚 类 法 的 不 同 之 处 在 于 : 系统 聚 类 对 不 同 的 类 数 产 生 一 系列 的 聚 类 结果 ， 而 K 均 值 法 只 能 产生 指定 类 数 的 聚 类 结果 。 有 具体 类 数 的 确定 ， 离 不 开 实 践 经 验 的 积 宗 。 有 时 也 可 借助 系统 聚 
类 法 ， 以 一 部 分 样本 为 对 象 进行 聚 类 ， 其 结果 作为 K 均 值 法 确定 类 数 的 参考 。 


作为 数据 挖掘 中 的 一 个 独立 课题 ， 关 联 规则 用 于 从 大 量 数据 中 挖掘 出 有 价值 的 数据 项 之 间 的 相关 关系 ， 常 用 的 有 arules 包 中 的 Apriori 算 法 。 使 用 Apriori 算 法 生成 规则 前 ， 要 把 数据 转换 为 transcation 格 
式 ， 通 过 as () 转换 ;其 中 涉及 的 参数 列表 (parameter) 用 于 自 定义 最 小 支持 度 与 置信 和 度 。 


时 间 序 列 分 析 是 根据 系统 观测 得 到 的 时 间 序 列 数据 ， 通 过 曲线 拟 合 和 参数 估计 来 建立 数学 模型 的 理论 和 方法 。 进 行 时 间 序 列 分 析 时 ， 可 以 使 用 ts () 函数 将 数据 转化 成 时 间 序 列 格式 ; 模型 拟 合 可 以 通 
过 arima () 函数 实现 ， 涉 及 的 主要 参数 有 order ( 自 回 归 项 数 、 滑 动 平均 项 数 及 使 时 间 序 列 成 为 平稳 序列 的 差分 阶 数 ) 、seasonal (序列 表现 出 季节 性 趋势 时 需要 ， 除 了 上 述 order 内 容 ， 还 有 季节 周期 
period) , method (参数 估计 方法 ，“CSS” 为 条 件 最 小 二 乘法 ，“ML” 为 极 大 似 然 法 ) 等 。R 中 的 auto.arima () 函数 可 以 自动 生成 一 个 最 优 拟 合 模型 。 


1.4 ”配套 资源 使 用 说 明 


本 书 资源 按照 章节 组 织 ， 目 录 中 会 有 对 应 的 文件 夹 (如 第 1 章 、 第 2 章 等 ) 。 章 节 文 件 夹 中 包含 两 个 子 目录 ( 除 第 1 章 外 ) : 示例 程序 和 上 机 实验 。 示 例 程序 包含 了 正文 部 分 的 资料 ， 包 括 code、data 和 
tmp。 其 中 code 为 章节 正文 中 使 用 到 的 代码 ， 按 照章 节 顺 序 依 次 排列 ， 代 码 文件 以 三 行 空 格 ， 分 隔 同 章节 中 的 上 下 两 段 代 码 。data 为 使 用 的 数据 文件 。tmp 为 运行 程序 产生 的 文件 。 上 机 实验 内 的 文件 格式 


参照 示例 程序 。 


读者 只 须 把 整个 章节 如 “第 2 章 ” 复 制 到 本 地 ， 通 过 Rstudio 运 行 代码 ， 或 将 代码 复制 至 R 软 件 中 ， 即 可 运行 程序 并 得 到 结果 。 运 行 前 请 按照 章节 内 容 ， 安 装 及 加 载 对 应 的 包 。 这 里 需要 注意 ， 在 示例 程 
序 中 使 用 的 一 些 自 定义 函数 在 对 应 的 章节 可 以 找到 相应 的 R 文 件 。 同 时 示例 程序 中 的 参数 初始 化 可 能 需要 根据 具体 设置 进行 配置 ， 比 如 数据 库 驱 动 的 地 址 、 文 件 路 径 ， 如 果 和 示例 程序 不 同 ， 请 自行 修改 。 


1.5 :/]& 


本 章 主要 对 R 进 行 简单 介绍 ， 包 括 软件 的 安装 与 升级 、 使 用 入 门 及 相关 注意 事项 和 R 数 据 分 析 及 挖掘 相关 包 。R 包 含 多 个 领域 的 程序 包 ， 本 章 只 介绍 了 与 数据 分 析 及 数据 挖掘 相关 的 包 ， 包 括 实现 分 类 、 
聚 类 、 关 联 规则 、 时 间 序 列 分 析 等 功能 的 包 。 在 后 续 的 章节 中 将 详细 介绍 R 中 用 于 数据 分 析 及 数据 挖掘 的 函数 ， 通 过 示例 来 帮助 读者 掌握 应 用 R 来 解决 数据 分 析 和 挖掘 技术 的 实际 问题 。 


1.6 上 机 实验 


1. 实 验 目 的 
"了解 R 及 RStudio 的 安装 过 程 及 操作 界面 ， 熟 悉 基 本 的 操作 过 程 。 
了解 R 包 的 安装 及 加 载 的 过 程 。 

2. 实 验 内 容 

依据 本 章 的 R 及 Rstudio 下 载 安 装 方法 安装 R 及 RSstudio， 通 过 熟悉 基本 操作 的 命令 及 操作 界面 ， 掌 握 软件 的 使 用 方法 。 
| 登录 R 及 RStudio 的 主页 ， 下 载 安装 对 应 的 版 本 。 


. 通过 命令 或 界面 操作 掌握 R 包 的 安装 及 使 用 方法 。 


(1) 实验 一 
安装 R 及 RStudio， 进 行 查看 帮助 文档 、 设 置 工作 目录 、 清 除 工 作 空间 中 的 内 存 变量 等 日 常 操作 。 
1) 登录 R 及 RSstudio 的 主页 ， 下 载 安装 程序 。 


2) 安装 R 及 RStudio。 


x 
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x 


+J RStudio, S hep™ S, AAplotA KARRE, TRrploteSZxBSzr DUE UR ES EUSIRBJap SEAT. 


4) 完成 操作 后 ， 关 闭 Rstudio 并 保存 工作 空间 的 印象 。 


— 


(2) 实验 二 

利用 R 完 成 rattle 包 的 安装 ， 以 及 通过 命令 打开 rattle 工 具 的 图 形 界 面 。 
1) 打开 R， 安 装 rattle 包 。 

2) 通过 library 命 令 加 载 rattle 包 ， 打 开 rattle 工 具 的 图 形 界 面 。 

4 思考 与 实验 总 结 

1) 如 何 通 过 R 碍 找 其 他 函数 的 帮助 文档 ? 


2) 如 何 安装 本 地 的 R 包 ? 


第 2 章 ”数据 对 象 与 数据 读 写 


2.1 数据 类 型 


1. 基 本 数据 类 型 
R 语 言 的 对 象 包括 数值 型 、 逻 辑 型 、 字 符 型 、 整 数 型 、 日 期 型 等 。 此 外 ， 也 有 可 能 是 缺 省 值 (NA) 。R 语 言 中 有 一 系列 的 函数 可 以 进行 数据 类 型 的 判别 及 转换 ， 见 表 2-1。 


表 2-1 数据 类 型 的 辨别 及 转换 函数 


类 型 E E] itr HR E 2 
numeric (is.numeric() |as.numeric() 


logical 1s.logical() as.logical() 


character |i1s.character() | as.character() 
NA as.na() 
double Is.double() as.double() 


complex j|is.complex() |as.complex() 


Integer Is.integer() as.integer() 


COUPLE: 构建 一 个 对 象 ， 辨 别 其 中 函数 的 类 型 ， 以 及 进行 类 型 转换 。 


n » p i dd 


# 构 建 一 个 对 象 
LE db ] 是 否 存 在 缺失 值 
[1] FALSE FALSE FALSE TRUE 
> x1<-c (1,2,3) # 构 建 一 个 对 象 
> is.numeric (x1) 4 判别 是 否 是 数值 型 数据 
[1] TRUE 
> x2«-as.character(xl) PKI RHA A PIM AAE 
> is.character (x2) # 判 别 是 否 转 化 为 字符 型 数据 
[1] TRUE 
2. 日 期 变量 
日 期 值 通常 以 字符 串 的 形式 传 入 R 中 ， 然 后 转化 为 以 数值 形式 存储 的 日 期 变量 。 在 R 中 ， 字 符 型 的 日 期 值 无 法 计算 日 期 变量 ， 因 此 可 通过 日 期 值 处 理 函 数 ， 将 字符 型 的 日 期 值 转换 成 日 期 变量 。 日 期 变量 


的 常用 函数 见 表 2-2。 


表 2-2 HARET AMAA 


T T 


S | GBKMSNDSHAN E id 《化 为 包含 时 间 及 时 区 的 日 期 
Sys.time() | ”返回 系统 当前 的 日 期 和 时 间 将 字符 型 变量 转化 为 包含 时 间 的 日 期 变量 
date( vemm TURRIS E BERI. GEHE srtime( | 将 日 期 变量 转换 成 指定 格式 的 字符 型 变量 
as.Date() 4 字符 串 形式 的 日 期 值 转换 为 日 期 变量 将 日 期 变量 转换 成 指定 格式 的 字符 串 


(1) as.Date () 


. 功能 : 将 字符 囊 形式 的 日 期 值 转换 为 日 期 变量 。 


.使 用 格式 : 


as.Date(x, format = "", http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15770/0EBPS/Text/...) 


其 中 x 是 要 转换 的 对 象 ， 为 字符 型 数据 ，format 则 给 出 了 用 于 读 入 日 期 的 适当 格式 (1122-3) 。 


表 2-3 读 入 日 期 的 格式 


符号 


%d 
%a | 缩写 的 星期 名 

%A | 非 缩 写 的 星期 名 

%w | 数字 表示 的 星期 天 数 

%m | 数字 表示 的 月 份 (400 一 12) 
%b | 缩写 的 月 份 

%B 缩写 的 月 份 

注意 as.Date () 函数 只 能 转换 包 


. 实例 : 将 字符 型 日 期 值 转 挨 为 日 期 变量 。 


数字 表示 的 日 期 ( 00 — 31) 二 位 数 的 年 份 


Ma oor [en 
Monay | oon [nob 


00~12 | %p | 


含 年 月 日 星期 的 字符 串 ， 无 法 转换 具体 到 时 间 的 字符 串 。 


12 小 时 制 小 时 
十 进 制 的 分 钟 


十 进 制 的 秒 


示例 
16 
2016 
00-23 
01-12 
AM/PM 
00 — 60 
00 — 60 


## 日 期 变量 的 转换 

# 创建 字符 串 的 日 期 值 

> dates «- c("01/27/2016", 
"02/01/2016") 

# 按照 月 日 年 的 格式 进行 转换 

> (date<-as.Date (dates, "£m/$d/$Y")) 


"02/27/2016", "01/14/2016", 


"02/28/2016", 


[1] "2016-01-27" "2016-02-27" "2016-01-14" "2016-02-28" "2016-02-01" 


(2) as.POSIXIt () 


定 的 格式 的 时 间 变 


x 


功能 : 将 字符 串 形 式 的 日 期 时 间 值 转换 为 指 t€. 
.使 用 格式 : 
as.POSIXlt(x, tz = "", format) 
其 中 x 为 想 要 转换 的 字符 串 型 日 期 时 间 值 ; tz 指 定 转换 后 的 时 区 ，” 为 当前 时 区 ，"GMT 为 UTC 时 区 ; format 指 定 要 转换 的 日 期 值 的 格式 。 


. 实例 ; 将 字符 囊 型 日 期 时 间 值 转换 为 时 间 变 量 。 


TE 时 间 变 量 的 转换 

$ 创建 一 个 字符 型 日 期 时 间 变 量 

» x «- c("2016-02-08 10:07:52", 
# 判定 是 否 为 字符 型 变量 

> is.character (Xx) 

[1] TRUE 

# 对 字符 串 形 式 的 日 期 时 间 值 按照 格式 进行 转换 
> 

[ 


"2016-08-07 19:33:02") 


as.POSIXIt (x, tz="","%Y-%m-%d $H:9M:$5S") 
1] "2016-02-08 10:07:52 CST" "2016-08-07 19:33:02 CST" 


注意 指 
(3) strptime () 
` 功能 : 将 字符 型 的 日 期 时 间 值 转换 为 时 间 变 量 。 


.使 用 格式 : 


定 format 格 式 中 的 年 月 日 与 时 分 秒 之 间 要 有 空格 隔 开 ，CST 为 当前 时 区 即 中 国标 准时 间 。 


strptime(x, format,tz-"") 


其 中 x 是 字符 型 数据 ，format 指 


. 实例 : 将 字符 型 日 期 时 间 值 转换 为 时 间 变 量 。 


定 要 转换 的 日 期 值 的 格式 ，tz 指 定时 区 ， 


"" 为 当前 时 区 ， 


"GMT" 为 UTC 时 区 。 可 以 看 出 ， 


strptime () 函数 的 格式 与 as.POSIXIt () 函数 的 格式 略 有 不 同 。 


## 时 间 变 量 的 转换 

# 活用 上 例 的 数据 

x 

] "2016-02-08 10:07:52" "2016- rU 07 19:33:02" 

按 年 月 日 时 分 秒 的 格式 转换 为 时 间 变 

(x <- strptime (x,"$Y-£m-$d $H: $M: $S")) 

] "2016-02-08 10:07:52 CST" "2016-08-07 19:33:02 CST" 


m V dE V 


(4) strftime () 
与 strptime () BAHE, 


.使 用 格式 : 


strftime () 有 函数 用 于 将 时 间 变 


量 按 指定 的 格式 转换 为 字符 型 日 期 值 。 


format = "") 


strftime (x, 


其 中 x 是 时 间 变量 ，format 为 想 要 转化 成 的 字符 型 日 期 值 的 输出 格式 。 


. 实例 : 将 时 间 变量 转化 为 指定 格式 的 字符 型 日 期 值 。 


## 转化 日 期 时 间 变 量 为 字符 串 
# 使 用 上 例 的 结果 

X 
] "2016-02-08 10:07:52 CST" "2016-08-07 19:33:02 CST" 


> 
[ 工 
# 输出 的 格式 转换 成 format 指定 的 格式 


> strftime(x, format = "£Y/£m/£d") 
[1] "2016/02/08" "2016/08/07" 


(5) format () 


| 功能: 将 对 象 按 指定 格式 转化 成 字符 囊 。 


“ 使 用 格式 : 


format (x,…) 


其 中 x 为 要 转换 为 字符 串 的 对 象 ，.… 指 定 要 转换 成 的 字符 串 的 格式 。 


注意 format () 函数 不 仅 限 于 将 日 期 变量 按 格式 转化 为 字符 串 ， 也 可 以 将 其 他 类 型 的 变量 转化 为 字符 串 。 


. 实例 : 将 时 间 变 量 转 化 为 字符 囊 日 期 值 。 


1E 使 用 format () 元 数 转换 为 字符 串 

# 使 用 和 上 例 同 样 的 数据 

> 

[1] "2016-02-08 10:07:52 CST" "2016-08-07 19:33:02 CST" 
# 输出 的 格式 转换 成 format 定义 的 格式 
> 

[1 


format (x, "$d/£m/£Y") 
] "08/02/2016" "07/08/2016" 


3. 查 看 对 象 的 类 型 
对 于 未 知 类 型 的 对 象 ， 在 R 中 有 3 个 函数 可 以 查看 对 象 的 类 型 : class () 、mode () 、typeof () 。 


“ 使 用 格式 : 


class (x) 


其 中 x 为 需要 查看 类 型 的 对 象 ，mode () . typeof () 函数 的 使 用 格式 与 class () 函数 相同 。 


" 实例 : 创建 3 个 不 同类 型 的 数据 ， 展 示 3 个 辨别 函数 的 区 别 。 


## 查 看 对 象 类 型 
# 创 建 一 个 数据 框 ， 内 含 3 个 不 同类 型 的 向 量 ， 设 置 参数 避免 自动 转化 为 因子 型 
> df-data.frame(cl-letters[1:3], c2=1:3, c3=c(1,-1,3), stringsAsFactors-F) 
# 使 用 mode () 函数 分 别 查 看 3 个 向 量 的 数据 类 型 
> sapply (df, mode) 

c1 c2 c3 
"character" "numeric" "numeric" 
# 使 用 class () 函数 分 别 查 看 3 个 向 量 的 数据 类 型 
> sapply(df, class) 

ci c2 c3 

"character" "integer" "numeric" 
HA typeof () 函数 分 别 查看 3 个 向 量 的 数据 类 型 
> sapply(df, typeof) 

c1 c2 c3 
"character" "integer" "double" 


一 


可 以 发 现 ， 在 展现 数据 的 细节 上 ，mode () «class () «typeof () 。mode () 函数 只 查看 数据 的 大 类 ，class () 函数 查看 数据 的 类 ，typeof () 函数 则 更 加 细 化 ， 查 看 数据 的 细 类 。 


第 2 章 ”数据 对 稼 与 数据 读 写 


2.1 数据 类 型 


1. 基 本 数据 类 型 
R 语 言 的 对 象 包括 数值 型 、 逻 辑 型 、 字 符 型 、 整 数 型 、 日 期 型 等 。 此 外 ， 也 有 可 能 是 缺 省 值 (NA) 。R 语 言 中 有 一 系列 的 函数 可 以 进行 数据 类 型 的 判别 及 转换 ， 见 表 2-1。 


表 2-1 数据 类 型 的 辨别 及 转换 函数 


类 型 E E] itr HR E 2 
numeric (is.numeric() |as.numeric() 


logical 1s.logical() as.logical() 


character |i1s.character() | as.character() 
NA as.na() 
double Is.double() as.double() 


complex j|is.complex() |as.complex() 


Integer Is.integer() as.integer() 


COUPLE: 构建 一 个 对 象 ， 辨 别 其 中 函数 的 类 型 ， 以 及 进行 类 型 转换 。 


n » p i dd 


# 构 建 一 个 对 象 
LE db ] 是 否 存 在 缺失 值 
[1] FALSE FALSE FALSE TRUE 
> x1<-c (1,2,3) # 构 建 一 个 对 象 
> is.numeric (x1) 4 判别 是 否 是 数值 型 数据 
[1] TRUE 
> x2«-as.character(xl) PKI RHA A PIM AAE 
> is.character (x2) # 判 别 是 否 转 化 为 字符 型 数据 
[1] TRUE 
2. 日 期 变量 
日 期 值 通常 以 字符 串 的 形式 传 入 R 中 ， 然 后 转化 为 以 数值 形式 存储 的 日 期 变量 。 在 R 中 ， 字 符 型 的 日 期 值 无 法 计算 日 期 变量 ， 因 此 可 通过 日 期 值 处 理 函 数 ， 将 字符 型 的 日 期 值 转换 成 日 期 变量 。 日 期 变量 


的 常用 函数 见 表 2-2。 


表 2-2 HARET AMAA 


T T 


S | GBKMSNDSHAN E id 《化 为 包含 时 间 及 时 区 的 日 期 
Sys.time() | ”返回 系统 当前 的 日 期 和 时 间 将 字符 型 变量 转化 为 包含 时 间 的 日 期 变量 
date( vemm TURRIS E BERI. GEHE srtime( | 将 日 期 变量 转换 成 指定 格式 的 字符 型 变量 
as.Date() 4 字符 串 形式 的 日 期 值 转换 为 日 期 变量 将 日 期 变量 转换 成 指定 格式 的 字符 串 


(1) as.Date () 


. 功能 : 将 字符 囊 形式 的 日 期 值 转换 为 日 期 变量 。 


.使 用 格式 : 


as.Date(x, format = "", http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15770/0EBPS/Text/...) 


其 中 x 是 要 转换 的 对 象 ， 为 字符 型 数据 ，format 则 给 出 了 用 于 读 入 日 期 的 适当 格式 (1122-3) 。 


表 2-3 读 入 日 期 的 格式 


符号 


%d 
%a | 缩写 的 星期 名 

%A | 非 缩 写 的 星期 名 

%w | 数字 表示 的 星期 天 数 

%m | 数字 表示 的 月 份 (400 一 12) 
%b | 缩写 的 月 份 

%B 缩写 的 月 份 

注意 as.Date () 函数 只 能 转换 包 


. 实例 : 将 字符 型 日 期 值 转 挨 为 日 期 变量 。 


数字 表示 的 日 期 ( 00 — 31) 二 位 数 的 年 份 


Ma oor [en 
Monay | oon [nob 


00~12 | %p | 


含 年 月 日 星期 的 字符 串 ， 无 法 转换 具体 到 时 间 的 字符 串 。 


12 小 时 制 小 时 
十 进 制 的 分 钟 


十 进 制 的 秒 


示例 
16 
2016 
00-23 
01-12 
AM/PM 
00 — 60 
00 — 60 


## 日 期 变量 的 转换 

# 创建 字符 串 的 日 期 值 

> dates «- c("01/27/2016", 
"02/01/2016") 

# 按照 月 日 年 的 格式 进行 转换 

> (date<-as.Date (dates, "£m/$d/$Y")) 


"02/27/2016", "01/14/2016", 


"02/28/2016", 


[1] "2016-01-27" "2016-02-27" "2016-01-14" "2016-02-28" "2016-02-01" 


(2) as.POSIXIt () 


定 的 格式 的 时 间 变 


x 


功能 : 将 字符 串 形 式 的 日 期 时 间 值 转换 为 指 t€. 
.使 用 格式 : 
as.POSIXlt(x, tz = "", format) 
其 中 x 为 想 要 转换 的 字符 串 型 日 期 时 间 值 ; tz 指 定 转换 后 的 时 区 ，” 为 当前 时 区 ，"GMT 为 UTC 时 区 ; format 指 定 要 转换 的 日 期 值 的 格式 。 


. 实例 ; 将 字符 囊 型 日 期 时 间 值 转换 为 时 间 变 量 。 


TE 时 间 变 量 的 转换 

$ 创建 一 个 字符 型 日 期 时 间 变 量 

» x «- c("2016-02-08 10:07:52", 
# 判定 是 否 为 字符 型 变量 

> is.character (Xx) 

[1] TRUE 

# 对 字符 串 形 式 的 日 期 时 间 值 按照 格式 进行 转换 
> 

[ 


"2016-08-07 19:33:02") 


as.POSIXIt (x, tz="","%Y-%m-%d $H:9M:$5S") 
1] "2016-02-08 10:07:52 CST" "2016-08-07 19:33:02 CST" 


注意 指 
(3) strptime () 
` 功能 : 将 字符 型 的 日 期 时 间 值 转换 为 时 间 变 量 。 


.使 用 格式 : 


定 format 格 式 中 的 年 月 日 与 时 分 秒 之 间 要 有 空格 隔 开 ，CST 为 当前 时 区 即 中 国标 准时 间 。 


strptime(x, format,tz-"") 


其 中 x 是 字符 型 数据 ，format 指 


. 实例 : 将 字符 型 日 期 时 间 值 转换 为 时 间 变 量 。 


定 要 转换 的 日 期 值 的 格式 ，tz 指 定时 区 ， 


"" 为 当前 时 区 ， 


"GMT" 为 UTC 时 区 。 可 以 看 出 ， 


strptime () 函数 的 格式 与 as.POSIXIt () 函数 的 格式 略 有 不 同 。 


## 时 间 变 量 的 转换 

# 活用 上 例 的 数据 

x 

] "2016-02-08 10:07:52" "2016- rU 07 19:33:02" 

按 年 月 日 时 分 秒 的 格式 转换 为 时 间 变 

(x <- strptime (x,"$Y-£m-$d $H: $M: $S")) 

] "2016-02-08 10:07:52 CST" "2016-08-07 19:33:02 CST" 


m V dE V 


(4) strftime () 
与 strptime () BAHE, 


.使 用 格式 : 


strftime () 有 函数 用 于 将 时 间 变 


量 按 指定 的 格式 转换 为 字符 型 日 期 值 。 


format = "") 


strftime (x, 


其 中 x 是 时 间 变量 ，format 为 想 要 转化 成 的 字符 型 日 期 值 的 输出 格式 。 


. 实例 : 将 时 间 变量 转化 为 指定 格式 的 字符 型 日 期 值 。 


## 转化 日 期 时 间 变 量 为 字符 串 
# 使 用 上 例 的 结果 

X 
] "2016-02-08 10:07:52 CST" "2016-08-07 19:33:02 CST" 


> 
[ 工 
# 输出 的 格式 转换 成 format 指定 的 格式 


> strftime(x, format = "£Y/£m/£d") 
[1] "2016/02/08" "2016/08/07" 


(5) format () 


dí: 将 对 象 按 指定 格式 转化 成 字符 囊 。 


“ 使 用 格式 : 


format (x,…) 


其 中 x 为 要 转换 为 字符 串 的 对 象 ，.… 指 定 要 转换 成 的 字符 串 的 格式 。 
注意 foma () 元 数 不 仅 限于 将 日 期 变量 按 格式 转化 为 字符 囊 ， 也 可 以 将 其 他 类 型 的 变量 转化 为 字符 囊 。 


实例 : 将 时 间 变 量 转化 为 字符 串 日 期 值 。 


1E 使 用 format () 元 数 转换 为 字符 串 

# 使 用 和 上 例 同 样 的 数据 

> 

[1] "2016-02-08 10:07:52 CST" "2016-08-07 19:33:02 CST" 
# 输出 的 格式 转换 成 format 定义 的 格式 
> 
[ 


format (x, "$d/£m/£Y") 
1] "08/02/2016" "07/08/2016" 


3 .查看 对 象 的 类 型 
对 于 未 知 类 型 的 对 象 ， 在 R 中 有 3 个 函数 可 以 查看 对 象 的 类 型 : dass () 、mode () 、typeof () 。 


“ 使 用 格式 : 


class (x) 


其 中 x 为 需要 查看 类 型 的 对 象 ，mode () . typeof () 水 数 的 使 用 格式 与 class () 函数 相同 。 


实例 : 创建 3 个 不 同类 型 的 数据 ， 展 示 3 个 辨别 函数 的 区 别 。 


## 查 看 对 象 类 型 
# 创 建 一 个 数据 框 ， 内 含 3 个 不 同类 型 的 向 量 ,， 设置 参 数 避 免 自动 转化 为 因子 型 
> df-data.frame(cl-letters[1:3], c2=1:3, c3=c(1,-1,3), stringsAsFactors-F) 
# 使 用 mode () 函数 分 别 查 看 3 个 向 量 的 数据 类 型 
> sapply (df, mode) 
ci C2 c3 
"Character" "numeric" "numeric" 


1M& Jf class () 函数 分 别 查 看 3 个 向 量 的 数据 类 型 


一 


> E ws , Class) 
c2 c3 
E TE A "numeric" 
HEA typeof () 函数 分 别 查看 3 个 向 量 的 数据 类 型 
> sapply (df, vods 
c1 c2 c3 
"character" "integer" "double" 


JARI, CERESUSGSRUAED.E, mode () «cass () «typeof () . mode () 函数 只 查看 数据 的 大 类 ，class () 函数 查看 数据 的 类 ，typeof () 函数 则 更 加 细 化 ， 查 看 数据 的 细 类 。 


2.2 数据 结构 


2.2.1 向 量 
向 量 是 R 语 言 中 最 基本 的 数据 类 型 ， 是 以 一 维 数组 管理 数据 的 一 种 对 象 类 型 。 向 量 可 以 是 数值 型 、 字 符 型 、 逻 辑 值 型 和 复数 型 。 
1. 向 量 创建 
向 量 可 以 使 用 执行 组 合 功能 的 < () 函数 来 创建 。 同 一 个 向 量 中 无 法 混杂 多 种 不 同类 型 的 数据 。 


. 实例 : 创建 不 同类 型 的 向 量 。 


IE SR E: 

>x1<-c (1,2,3,4) PNE Eo aaa 
»x2«- c ("a", n Wen Wm # 创 建 字符 型 变 

>x3<-c (TRUE, FALSE, FALSE, TRUE) "m | ziv BAS Y 
2. 向 量 索 引 


向 量 中 数据 的 索引 通过 下 标 来 完成 。 通 过 方 括号 中 给 定 元 素 所 处 的 位 置 即 元 素 的 下 标 ， 即 可 访问 向 量 中 特定 位 置 的 元 素 。which () 函数 将 返回 逻辑 向 量 中 为 TRUE 的 位 置 ， 可 将 逻辑 索引 切换 到 整数 索 
引 中 。 此 外 还 有 多 种 方式 可 以 进行 向 量 索 引 。 向 量 的 索引 示例 如 代码 清单 2-1 所 示 ， 分 别 使 用 按 下 标 索 引 、 按 名 称 索引 、 使 用 which () 函数 以 及 其 他 几 种 方式 索引 元 素 。 


代码 清单 2-1 向量 索 引 


HAERA 
# 下 标 方 Sk a] CU X 8548) 


vector<-c (1,2,3,4) fé 

vector [1] # 查 看 第 一 个 元 素 

vector[c(1:3)] # 查 看 前 三 个 元 素 

vector[-1] # 查 看 除了 第 一 个 元 素 之 外 的 所 有 元 素 

vector[-c(1:3)] # 查 看 除了 前 三 个 元 素 之 外 的 所 有 元 素 

vector [c (TRUE, TRUE, FALSE, FALSE) ] # 通 过 逻辑 序列 查看 前 两 个 元 素 
FREMRI 

names (vector) <-c ("one", "two", "three", "four") # 给 向 量 中 每 个 元 素 命名 
vector [c ("one", "two", "four")] # 查 看 名 称 为 "one", "two", "four" 的 元 素 
#which 方 式 索 引 (元 素 的 位 置 ) 

which (vector==1) # 向 量 中 等 于 1 的 元 素 所 在 的 位 置 
which(vector--c(1,2)) ”# 向 量 中 等 于 1 和 2 的 元 素 所 在 的 位 置 

which (vector!=1) # 向 量 中 不 等 于 1 的 元 素 所 在 的 位 置 


which (vector>2 & vector«4) # 满 足 多 重 条件 的 元 素 所 在 的 位 置 


which.max (vector) # 最 大 值 所 在 的 位 置 

which.min (vector) # 最 小 值 所 在 的 位 置 

#subset 方 式 索引 

subset (vector, vector>2&vector<4) # 检 索 向 量 中 满足 条 件 的 元 素 
#match 方 式 索引 

match (vector,c(1,3)) 判断 向 量 中 的 元 素 是 否 等 于 1 或 3 
#%jin% 方 式 索 引 

c(1,5)%in%vector 判断 向 量 中 是 否 包含 某 项 数据 


* 代 码 详 见 : 第 2 章 / 示 例 程序 /code/code2-2-1.R 
3. 向 量 编辑 


R 语 言 可 以 对 已 经 创建 好 的 向 量 直 接 进行 元 素 扩展 及 删除 等 编辑 操作 。 向 量 的 扩展 通过 c () 函数 实现 ， 要 注意 的 是 ， 扩 展 的 元 素 必须 和 原 向 量 中 包含 的 元 素 类 型 保持 一 致 ， 否 则 会 报错 。 删 除 向 量 中 的 
元 素 通过 减 号 加 元 素 下 标的 形式 实现 。 


. 实例 : 向 量 元 素 的 扩展 及 删除 。 


## 向 量 编辑 

>x<-c (1,2,3,4) 

# 向 量 扩 展 
»(x«-c(x,c(5,6,7))) 
[1] 1234567 
# 单 个 元 素 的 删除 
»(x«-x[-11]) 

[1] 23456 7 

# 多 个 元 素 的 删除 

> (x«-x[c(3:5)]) 
[1] 45 6 


4. 向 量 排序 
sort () 函数 为 R 语 言 中 对 向 量 进行 排序 的 常用 函数 。 此 外 ，rev () 函数 可 以 将 向 量 倒序 放置 。 


.使 用 格式 : 


sort (x, decreasing = FALSE, na.last = NA, http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15770/OEBPS/Text/...) 


. 函数 的 参数 见 表 2_4。 
表 2-4 sort () 函数 常用 参数 
常用 参数 参数 描述 选项 
X 排序 的 对 象 排序 的 对 象 为 数值 型 ， 也 可 以 是 字符 型 


decreasing | 排序 的 顺序 默认 设置 为 FALSE， 即 升序 排序 。 设 置 为 TRUE 时 ， 为 降序 排序 


AAT ; 1 py 寸 ， 将 回 量 A 放 到 序 
是 否 将 缺失 信 放 到 序列 的 最 未 尾 默认 设置 为 FALSE， 设 置 为 TRUE 时 ， 将 向 量 中 的 NA 值 放 到 序 
列 的 最 末尾 


. 实例 : 向 量 的 排序 及 倒序 。 


## 向 量 排 序 

# 创 建 3 个 无 序 的 向 量 
»x«-c(5,6,8,7,4,1,9) 

»xl«-c (Up ý WAY "CM ) 
»x2«-c(3,2,NA,1,4,5) 

# 数 值 型 数据 排序 ( 默认 ) 顺序 为 升序 ) 
> sort(x,decreasing = FALSE) 
[1] 1456789 

> sort (x,decreasing-TRUE) 
[1] 9876541 

# 字 符 型 数据 排序 

> sort (x1) 

r ] WAY "T p" WW 

PH 失 值 (NA) 放置 到 序列 最 末尾 
> sort (x2,na.last = TRUE) 
1 1 2 3 4 5NA 


TE 
> rev(x) 
[1] 9147865 


5. 等 差 序列 的 创建 
R 语 言 中 的 seq () 函数 用 于 生成 等 距 间 隔 的 数列 。 


.使 用 格式 : 


seq(from = 1, to = 1, by = ((to - from)/(length.out - 1)), length.out = NULL, along.with = NULL, http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncon 


. 函数 的 参数 见 表 2-5。 


- 实例 : 创建 等 差 序列 。 


TES ŽA] 

> seq(1,-9) RAREN PERZIE, by 4 STE BC A71 

[1] 0 = =2 -3 =4 =5 -0 =7 -8 -9 

> seq(1,-9,length.out-5) # 给 出 首 项 和 尾 项 数据 以 及 长 度 ， 自 动 计算 等 差 


[1] 1.0 -1.5 -4.0 -6.5 -9.0 

> seq(1,-9,by=-2) # 给 出 首 项 和 尾 项 数据 以 及 等 差 ， 自 动 计 算 长 度 

[1] 1 -1 -3 -5 -7 -9 

> seq(l,by-2,length.out-10)  # 给 出 首 项 和 等 差 以 及 序列 长 度数 据 ， 自 动 计 算 尾 项 
[1] ] 3 5 7 9 11 13 15 17 19 


表 2-5 seq O YE ACE E AK 


参数 T Y 
from SF 2: UP] A MRA, AAN 1 
to SF 25 2571 HJ FE UUCDS .— SATA 1 
by 等 差 的 数值 
length.out | PP ÆFIR E 


6. 重 复 序 列 的 创建 
R 语 言 中 的 rep () 函数 用 于 创建 重复 序列 ， 它 能 将 某 一 向 量 重复 若干 次 。 


.使 用 格式 : 


rep(x, times = 1, length.out = NA, each = 1) 


` 函数 的 参数 见 表 2-6。 


表 2-6 rep () 函数 常用 参数 


x 预 重复 的 序列 对 象 产生 的 序列 的 长 度 


复 的 序 顶 重复 的 序列 中 每 个 元 素 重 复 的 次 数 ， 
times 预 重复 的 序列 重复 的 次 数 ae ee F 列 中 每 个 元 系 重 复 p 
XH H.A 


Xp: 创建 重复 序列 。 


TEE RE 
> rep(1:3,2) # 重 复 序列 两 次 
]123123 
» rep(1:3,each-2) # 序 列 中 各 个 元 素 分 别 重 复 两 次 
] 1 2-2. 33 
> rep(1:3, c(2,1,2)) # 按 照 规 则 重复 序列 中 的 各 个 元 素 
] 11233 
> rep(1:3, each = 2, length.out = 4) # 序 列 中 各 个 元 素 分 别 重 复 两 次 ， 规 定 生成 序列 的 长 度 为 4 
[1] 1 2 
> rep(1:3, each = 2, times = 3) # 序 列 中 各 个 元 素 分 别 重复 两 次 ， 整 个 序列 重复 3 次 
1] 112233112233112233 
> rep (as.factor (c ("A F1", "因子 2", "因子 3"))，, 3) # 将 因子 型 变量 序列 重复 3 次 
[1] 因子 1 因子 2 因子 3 因子 1 因子 2 因子 3 因子 1 因子 2 因子 3 


Levels: 因子 1 因子 2 因子 3 


2.2.2 ”和 矩阵 
和 矩阵 是 一 个 二 维 数组 ， 可 以 描述 二 维 数 据 。 和 向 量 相似 ， 和 矩阵 内 每 个 元 素 都 拥有 相同 的 模式 (数值 型 、 字 符 型 或 逻辑 型 ) 。 
1.8] EE 
可 通过 函数 matrix () 创建 德 阵 。 


.使 用 格式 : 


matrix(data = NA, nrow = 1, ncol = 1, byrow = FALSE,dimnames = NULL) 


.函数 的 参数 见 表 2-7。 


2-7 matrix () 有 函数 常用 参数 


data 
nrow 
ncol 
byrow 


dimnames 


HEC] S AED 
# 创 建 向 量 作为 矩阵 的 数据 


x«-c (1:10) 


AR VER) ZUR 
行 的 维 数 
列 的 维 数 


EENIA ENIA, 


HET FALSE 


以 子 和 从 型 器 量 表示 的 行 名 和 列 名 


. 实例 : 创建 按照 不 同方 式 读 取 数据 的 矩阵 及 定义 矩阵 的 行列 名 。 


# 创 建 一 个 算 阵 ， 定 义 算 阵 的 列 数 为 2， 行 数 为 5， 按 行 读 取 数据 


(a«-matrix (x,ncol-2,nrow-5,byrow-T)) 


[et] : 22] 
[1,] 1 2 
[2,] 3 4 
[3,] 5 6 
[4,] 7 8 
[5,] 9 10 
井 创 建 一 个 矩阵 ， 定 义 矩 阵 的 列 数 为 2， 行 数 为 5， 按 列 读 取 数 据 
> b«-matrix (x) 
> dim(b)=c (5,2) 
> b 
[,1] [,2] 
[1,] 1 6 
[2;] 2 7 
[3,] 3 8 
[4,] 4 9 
[5l 5 10 
t€] —4-541:25], IRRA EE, dimnames/€ 3 4E EAT 7] 85 4 
> (c«-matrix (x,ncol-2,nrow-5,byrow-F, 
十 i (C ("r1 ue mp2", "EST, "pA", MAS . [el ("c1", Taz) ) ) ) 
cl 02 
ri 1 6 
r2 2 7 
r3 3 8 
r4 4 9 
rb 5 10 


* 代 码 详 见 : 第 2 章 / 示 例 程序 /code/code2-2-1.R 


2. 和 矩 阵 转化 为 向 量 


和 矩阵 可 以 通过 as.vector () 函数 转化 为 向 量 。 当 和 矩阵 转化 为 向 量 时 ， 元 素 按 列 读 取 。 


. 实例 : 不 同 数据 排列 方式 的 矩阵 转化 为 向 量 。 


PEERAA AE 
> x<-c (1:10) 
#4] a 525] 的 和 矩阵， 元素 按 列 填充 


> (a<-matrix (x,ncol-2,nrow-5,byrow-F)) 


[i1] [1,2] 
(Jd 6 


1 

2 2 7 
3S] 3 8 
4,] 4 9 
5] .35 10 
将 矩阵 转化 为 向 量 
p<- -as.vector (a) ) 

1 2 3 4 5 6 7 8 910 
| ik —/ 54125] 45 TE, UA ARATHÀ X 

> 


gud 


(c«-matrix (x,ncol-2,nrow-5,byrow-T)) 


liL 21 


\ N 01 CO 
* «n ode bd 


Ed 
cia as.vector(c)) 
[1] 1 3 5 7 9 2 4 6 8 10 


3. 和 矩阵 索引 


跟 向 量 类 似 ， 矩 阵 也 可 以 使 用 下 标 和 方 括号 来 选择 和 矩阵 中 的 行 、 列 或 者 元 素 。X[i，] 指 和 矩 阵 X 中 的 第 i 行 ，X[，j] 指 第 j 列 ，X[i, 


实例 : 多 种 不 同 的 矩阵 索引 方式 。 


JUSSIT ST TUER. 


选择 多 行 或 多 列 时 ， 下 标 j 和 j 可 为 数值 型 向 量 。 


FFER A] 
2b 4:3 
» x«-c(1:10) 


> a«-matrix (x,ncol-2,nrow-b5,byrow-F,dimnames-list (c("rl1","r2","r3","r4","r5"),c("c1","c2"))) 


>a 


cl -2 
rl 1 6 
r2 2 7 
r3 3 8 
e 4 9 

5 10 


T 索引 


> a[2,1] 

[1] 2 

# 根 据 行 和 列 的 名 称 索 引 

> a["r2","c1"] 

[1] 2 

# 使 用 一 维 下 标 索 引 

> all,] # 检 索 第 一 行 

GL C2 

1 6 

> al,1] TERS 列 

rl r2 r3 r4 

1 2 3 4 2 

eee ed 
a[c(3:5) 检索 第 三 至 
cl c2 

Bo O3. 38 

r4 4 9 

rb 5 10 

4 JBPEBRS RR 

JEDER ARIAEDES 


cbind () 的 自 变量 是 


比 其 变量 短 ， 则 循环 不 足 后 合并 。 


第 五 行 


和 矩阵 或 者 看 作 列 向 量 的 向 量 时 ， 自 变量 


的 高 度 ( 行 数 ) 应 该 相等 


与 向 量 相似 的 是 ， 删 除 和 矩阵 中 的 元 素 也 可 以 通过 下 标 和 方 括号 完 


实例 : 给 阵 的 合并 与 删除 。 


THEE EE M) m E 
dp 4| AE TE 
» x«-c(1:10) 


> (a«-matrix(x,ncol-2,nrow-5,byrow-F)) 


HR T 
ees pweo-Bi*uosovi 
H- 

z) 

EL 
w 
[0] 
e 
m 
m 
N 


54EAN 


RiSErPHTBEBUBEESE 


# 按 行 的 形式 合并 


# 按 列 的 形式 合并 


# 按 行 的 形式 合并 时 ， 循 环 不 足 后 合并 


# 按 列 的 形式 合并 时 ， 和 循环 不 足 后 合并 


# 删 除 和 矩阵 的 第 一 行 


坦 删 除 和 矩阵 的 第 一 列 


等 。rbind () 的 自 


国 数 ， 包 括 四 则 运算 、 对 和 矩 阵 各 行列 的 求 和 、 对 和 矩 阵 各 行列 的 求 均值 、 转 置 等 


表 2-8 EHAE 


ZEE 
EE 


等 。R 语 言 中 部 分 党 用 的 矩阵 运算 


甬 过 函数 rbind () 和 cbind () SW. Ažtrbind () 把 其 自 变 量 按 列 的 形式 纵向 拼 成 一 个 大 矩阵 ，cbind () 把 其 自 变 


数 


量 按 行 的 形式 横向 拼 成 一 个 大 矩阵 。 


函数 见 


和 矩阵 或 者 看 作 行 向 量 的 向 量 时 ， 自 变量 的 宽度 ( 列 数 ) 应 该 相等 。 


表 2-8。 


如 果 参 与 合并 的 自 变 量 


函数 功能 
+-*/ 四 则 运算 ， 要 求 矩 阵 的 维 数 相 同 ， 对 对 应 位 置 的 各 元 素 进行 运算 
colSums() XTXR RE MJA FIR AN 
rowSums() 对 和 矩阵 的 各 行 求 和 
colMeans() 对 年 阵 的 各 列 求 均值 
rowMeans() 对 年 阵 的 各 行 求 均值 
t() 对 和 矩 阵 的 行列 进行 转 置 
det() 求解 方 阵 的 行列 式 
crossprod() 求解 两 个 矩阵 的 内 积 
outer() 求解 矩阵 的 外 积 〈 又 积 ) 
%*% 矩阵 乘法 ， 要 求 第 一 个 矩阵 的 列 数 与 第 二 个 矩阵 的 行 数 相同 
diag() XPXR[EEIBOS ÉRIC ER. AIRA, DUI AE LEA mE NA f 26 8 R) fA E DAE 
solve() XR [Ego PELIE RE, RIE ME n3 
eigen() ATIE ESR fet Te GE (ECRURERE [0] fi 


Hl 


. 矩阵 运算 函数 的 示例 如 代码 清单 2-2 所 示 。 


代码 清单 2-2 ”和 矩阵 的 运算 


IEEE AIR E 
A«-matrix(c(1:9),ncol ES Meum. 
B«-matrix(c(9:1),ncol-3 

# 四 则 运算 : 加 AR, RR AJENA C RI, 对 对 应 位 置 的 各 元 素 进行 运算 
C=2*A+B-B/A 

TE AERE 97 3-5] de 

colsums A-colSums (A) 

bine eie 

lmeans A-colMeans (A) 

bx AH 4j 求 和 

rowsums A-rowSums (A) 

IAE BE 85 44 35345 4. 

rowmeans A-rowMeans (A) 

# 转 置 运算 

trans A=t (A) # 行 列 转 置 

# 方 阵 求解 行列 式 

det A=det (A) 

SAEPE 65 Pj d 

crossprod (A,B) 

inner product-t(A)$*$B # 等 价 于 crossprod (A,B) 


ES 


TAEREAS PR (IAR) 

outer (A, B) 

cross product-A$o$B # 等 价 于 outer (A, B) 
HAERES ~ FRIE EAK 5] Zo 4E EBI 43 A8 ^F 
(D-AS*$B 

NA 运算 及 生成 对 角 阵 

diag A-diag(A)  14EBEZUS f 

diag (diag A) # 生 成 对 角 阵 

# 求 解 逆 和 矩阵， 要 求 矩 阵 可 逆 (行列 式 不 为 0) 
M«-matrix(c(1:8,10),ncol-23,nrow-3) 
inverse M-solve (M) 

# 求 解 和 矩阵 的 特征 值 和 特征 向 量 


ev M-eigen (M) 


2.23 数组 
SURSES, REXEPERUS fe, CESE RESUPSA MA E, RILGAJSRBERAURPERBUARGH. BERRAR ERAAI, AARRE, BERF, 
1. 创 建 数 组 
与 创建 德 阵 类 似 ， 数 组 可 以 通过 array () RAEE. 


.使 用 格式 : 


array(data = NA, dim = length(data), dimnames - NULL) 


函数 的 参数 见 表 2-9。 


表 2-9 array () AAR AAA 


参数 pui 
data ZH AIJE 
数组 的 维 数 ， 以 效 值 型 品 量 表示 的 
各 个 维度 下 标的 最 大 值 
dimnames 可 选 参数 ， 各 维度 名 称 标签 的 列表 


IE 实例 : 创建 一 个 数组 。 


dim 


井 # 创 建 数 组 

> x«-c(1:30) 

# 定 义 数组 各 维度 的 名 称 

> diml<-c ("A1", "A2", "A3") 

> di m2«-c ("B] "T , "D2 "ww 7 "p3" ; "B4 "T ; "B5") 

> dim3«-c("C1","c2") 

# 创 建 数组 ， 数 组 维 数 为 3， 各 维度 下 标的 最 大 值 为 3，5，2 

> (a<-array (x,dim-c(3,5,2),dimnames = list (diml,dim2,dim3))) 


r, Cl 

Bl B2 B3 B4 B5 
A1 1 4 7 10- 13 
A2 2 5 8 11 14 
A3 3 6 9 2 15 


2. 数 组 的 索引 
与 拭 阵 和 向 量 类 似 ， 数 组 也 可 以 通过 下 标 和 方 括号 来 索引 数组 中 的 元 素 。 不 同 的 是 数组 的 维度 更 高 ， 下 标 也 更 为 复杂 。 


. 实例 : 数组 索引 的 几 种 方式 。 


## 数 组 索引 

# 示 例 数组 

> x<-c (1:30) 

> diml«-c("A1","A2","A3") 

> di m2«-c ("B] "T z "B2 LU f "p3" "B4 LU ; "B5") 

> dim3«-c("C1","c2") 

> a«-array (x,dim-c(3,5,2),dimnames = list (diml,dim?2,dim3)) 
# 根 据 位 置 索引 

> a[2,4,1] 


# 根 据 维度 名 称 索引 
e a [*A2" "B4", WOES] 


# 查 看 数组 的 维度 
> dim(a) 
[1] 3 5 2 


2.2.4 数据 框 


数据 框 是 仅 次 于 向 量 的 最 重要 的 数据 对 象 类 型 。 由 于 不 同 的 列 可 以 包含 不 同 模式 (数值 型 、 字 符 型 等 ) 的 数据 ， 数 据 框 的 概念 较 和 矩阵 来 说 更 为 一 般 。 在 R 语 言 中 ， 很 多 数据 分 析 算 法 函数 的 输入 对 象 都 是 
数据 框 对 象 ， 而 且 在 使 用 读 取 exceltxt 等 格式 数据 集 的 函数 时 ， 也 是 以 数据 框 为 对 象 输入 的 。 


需要 注意 的 是 ， 虽 然 数据 框 内 不 同 的 列 可 以 是 不 同 模 式 的 数据 ， 但 是 数据 框 内 每 个 列 的 长 度 必须 相同 。 
在 实际 操作 中 ， 通 常会 用 数据 框 的 一 列 代表 某 一 变量 属性 的 所 有 取 值 ， 用 一 行 代表 某 一 样本 数据 。 
数据 框 是 R 语 言 中 最 常 处 理 的 数据 结构 。 

1. 创 建 数 据 框 

数据 框 可 以 通过 函数 data.frame () 把 多 个 向 量 组 合 起 来 创建 ， 并 设置 列 名 称 。 


使 用 格式 : 


data.frame (coll,col2,c013,:--) 


其 中 的 列 向 量 col1，col2，col3，... 可 以 为 任意 类 型 (如 数值 型 、 字 符 型 或 者 逻辑 型 ) 。 和 矩阵 也 可 以 通过 data.frame () 函数 转化 为 数据 框 。 


实例 : 创建 数据 框 的 几 种 方式 。 


## 创 建 数据 框 


# 向 量 组 成 数据 框 

> data iris<-data.frame (Sepal.Length=c (5.1,4.9,4.7,4.6),Sepal.Width=c (3.5,3.0, 3.2,3.1), 
+ Petal.Length=c(1.4,1.4,1.3,1.5),Pe.tal.Width=rep (0.2,4)) 

> data iris 


Sepal.Length Sepal.Width Petal.Length Pe.tal.Width 
1 5.1 um 1.4 0. 
2 4.9 3.0 1.4 0.2 


4.7 
4.6 

Hm 阵 转 化 为 数据 杠 

> (data matrix«-matrix(1:8,c(4,2))) # 创 建 一 个 矩阵 

[,2] 

5 


dz 
S.l 


Cn C9 


0.2 
0.2 


frame (data matrix)) # 将 矩阵 转化 为 数据 框 


A wN 
A wN 
co —1 NaN 


2. 数 据 框 索 引 


数据 框 的 索引 和 和 矩阵 类 似 ， 由 于 都 是 二 维 数据 ， 所 以 它 也 有 两 个 维度 的 下 标 ， 同 时 数据 框 的 列 名 称 也 可 以 方便 地 索引 数据 框 的 列 数据 。 数 据 框 可 以 使 用 $ 符 号 很 方便 地 按 名 称 索 引 列 数据 。 此 外 ， 还 可 以 
用 subset () 函数 按 条 件 索引 。sqldf 包 中 的 sqldf () 函数 可 以 使 用 sq 语句 索引 。 


: 实例 : 常用 的 数据 框 索引 方式 详 见 代 码 清单 2-3。 


代码 清单 2-3 ”数据 框 索引 


FEAE R 5| 

井 示例 数据 

data iris«-data.frame (Sepal.Length-c(5.1,4.9,4.7,4.6),Sepal.Width-c(3.5,3.0,3.2, 3.1), 
十 Petal.Length-c(1.4,1.4,1.3,1.5) , Be. tal. Widtherep(0.2,4)) 
# 列 索引 

data iris[,1] # 索 引 第 一 列 

data iris$Sepal.Length # 按 列 的 名 称 索 引 

data iris["Sepal.Length"] # 按 列 的 名 称 索 引 

# 行 索引 

data iris[1,] # 索 引 第 一 行 

data iris[1:3,] # 索 引 第 一 至 三 行 

FARRA 

data iris[1,1] # 索 引 第 一 列 第 一 个 元 素 

data iris$Sepal. Length[1] # 索 引 Sepal .Length 列 第 一 个 元 素 

data iris["Sepal.Length"][1] # 索 引 Sepal .Length 列 第 一 个 元 素 

subset žžk% 2| 

subset (data iris,Sepal.Length«5) # 按 条 件 索 引 行 


#sqldf AA 5] 
library (sqldf) 
newdf<-sqldf ("select * from mtcars where carb=1 order by mpg",row.names-TRUE 


— 


3. 数 据 框 编辑 


与 矩阵 类 似 ， 数 据 框 的 编辑 可 以 通过 rbind () 和 cbind () 函数 。 需 要 注意 的 是 ， 使 用 rbind () 和 cbind () 函数 对 于 数据 框 而 言 ， 分 别 为 增加 新 的 样本 数据 和 增加 新 属性 变量 。 因 此 ，rbind () 的 
自 变量 的 宽度 ( 列 数 ) 应 该 与 原 数据 框 的 宽度 相等 ，cbind () 的 自 变量 的 高 度 ( 行 数 ) 应 该 与 原 数 据 框 的 高 度 相 等 ， 否 则 程序 将 会 报错 。 


此 外 ，names () 销 数 可 以 读 取 数据 框 的 列 名 进行 修改 。 


. 实例 : 数据 框 的 扩展 、 删 减 及 列 名 的 修改 。 


井 # 数 据 框 编辑 

# 创 建 示 例 数 据 框 

> data iris<-data.frame (Sepal.Length-c(5.1,4.9,4.7,4.6) , Sepal.Width-c(3.5,3.0,3.2,3.1), 
十 Petal.Length-c (1.4,1.4,1.3,1.5) , Pe. tal.Width-rep(0.2,4)) 


» data iris 
Sepal.Length Sepal.Width  Petal.Length  Pe.tal.Width 


1 5.1 345 1.4 0.2 
2 4.9 3.0 1.4 0.2 
3 4.7] 3.2 1:3 0.2 
4 4.6 SON 1.5 0.2 
# 增 加 新 的 样本 数据 

> (data iris«-rbind(data iris,list(5.0,3.6,1.4,0.2))) 

Sepal. nm Sepal.Width  Petal.Length  Pe.tal.Width 

it 5; 3.5 1.4 0.2 
2 > 3.0 | .4 0.2 
3 4.7] 3:2 L3 0.2 
4 4.6 SEM 1.5 0.2 
5 5.0 3.6 1.4 0.2 


# 增 加 数据 集 的 新 属性 变量 


> (data iris«-cbind(data iris,Species-rep ("setosa",5))) 
Sepal.Length  Sepal.Width Petal. Length  Pe.tal.Width Species 
1 Sel 3.5 1.4 0.2 setosa 
2 4.9 Su |.4 0.2 setosa 
3 4.7 Sm 143 0.2 setosa 
4 4.6 3L t9 0.2 setosa 
5 20 3.6 1.4 0.2 setosa 
# 数 据 框 的 删除 
> data iris[,-1] # 删 除 第 一 列 
Sepal.Width  Petal.Length  Pe.tal.Width Species 
1 Je 14 0.2 setosa 
2 3.0 1.4 0.2 setosa 
3 3.2 La3 0.2 setosa 
4 Sal Lss 0.2 setosa 
5 3.6 1.4 0.2 setosa 
> data iris[-1,] # 删 除 第 一 行 
Sepal.Length Sepal.Width  Petal.Length Pe.tal.Width Species 
2 4.9 3 1,4 0.2 setosa 
3 4.7 uz T. 0.2 setosa 
4 4.6 BaL 1.5 0.2 setosa 
5 5.0 3.6 1.4 0.2 setosa 
# 数 据 框 列 名 的 编辑 
> names (data iris) # 查 看 数据 框 的 列 名 
[1] "Sepal.Length" "Sepal.Width"  "Petal.] ue "Pe.tal.Width" "Species" 
> names (data iris) [1]-"sepal.length" # 将 数据 框 的 第 一 列 列 名 改 为 sepal .length 
> names (data iris) 4 查看 修改 后 数据 框 的 列 名 
[1] "sepal.length" "Sepal.Width"  "Petal.Length" "Pe.tal.Width" "Species" 
225 因子 


变量 可 归结 为 名 义 型 、 有 序 型 或 连续 型 变量 。 名 义 型 变量 是 没有 顺序 之 分 的 类 别 变量 。 糖 尿 病 类 型 Diabetes (Type1、Type2) 是 名 义 型 变量 的 一 例 。 在 数据 中 ，Type1 编 码 为 1， 而 Type2 编 码 为 2， 并 
不 意味 着 二 者 是 有 序 的 。 有 序 型 变量 表示 一 种 顺序 关系 ， 而 非 数 量 关 系 。 病 情 Status (poor, improved, excellent) 是 顺序 型 变量 的 一 个 示例 。 


类 别 (名 义 型 ) 变量 和 有 序 类 别 (有 序 型 ) 变量 在 R 中 称 为 因子 (factor) ， 因 子 提供 了 一 个 简单 而 有 紧凑 的 形式 来 处 理 分 类 (名 义 型 ) 数据 。 因 子 用 水 平 来 表示 所 有 可 能 的 取 值 。 如 果 数 据 集 有 取 值 个 
数 固定 的 名 义 变 量 ， 因 子 特别 有 用 。 


1. 创 建 因 子 


(1) 通过 factor () 函数 创建 因子 


使 用 格式 : 


factor(x = character(), levels, labels = levels,exclude = NA, ordered = is.ordered(x), 


: E Ac 85 CLR 2-10. 


参数 


X 

levels 
labels 
exclude 
ordered 


nmax 


CEP): 因子 型 向 量 的 转换 及 创建 。 


nmax = NA) 


42-10 factor () 函数 常用 参数 


表示 需要 创建 为 因子 的 数据 ， 是 
表示 所 创建 的 因子 数据 的 水 平 ， 如 果 不 指 定 的 话 ， 就 是 x 中 不 重复 的 所 有 值 
与 水 平一 


用 来 标识 这 一 水 平 的 名 称 ， 


表示 有 哪些 水 平 是 不 需要 的 
MEHA, H TRUE 表示 有 序 因子 ， 为 FALSE 则 表示 无 序 因子 


表示 水 平 个 数 的 上 限 


描述 


MES 


对应， 方便 用 户 识别 


## 创 建 因子 
# 将 statistics 分 解 为 因子 型 向 量 ， 水 平 为 26 个 小 写字 母 


> (ff <- factor (substring ("statistics", 1:10, 1:10), levels-letters)) 
[I] statist i cs 
Levels: abcdef£fghijklmnopqaqrstuvwxyz 
TA UN 包含 在 向 量 — 水 平 
(t. factor (ff) ) 
a statistics 
Levels: acist 
> ff[, drop = TRUE] # 等 价 于 f. <- factor (ff) 
[(1] statistics 
Levels: acist 
# 创 建 因 子 型 向 量 ， 水 平 名 称 为 letter 
> factor (letters[1: 20], labels = "letter") 
[1] letter] letter2 letter3 letter4 ]letter5 letter6 letter7 letter8  letter9 
[10] letter10 letterll letter12 letter13 letterl14 letter15 letterl6 letter17 letter18 
[19] letter19 letter20 
20 
# 创 建 有 序 的 因子 型 向 量 
> z <- factor(LETTERS[3:1], ordered = TRUE) 
>z 
[1] CBA 
Levels: A< B< C 


(2) 通过 gl () 函数 创建 因子 序列 


使 用 格式 : 


Levels: letterl letter2 letter3 letter4 letter5 letter6 letter7 letter8 http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15770/OEBPS/Te 


gl(n, k, length = n*k, labels = seq len(n), ordered = FALSE) 


: 函数 的 参数 见 表 2-11。 


参数 


n 
k 

length 
labels 


ordered 


: 实例 : 创建 不 同 水 平 的 因子 序列 。 


## 创 建 因 子 序列 : 
# 生 成 水 平 数 为 3， 每 个 水 平 重复 3 次 的 因子 序列 


> gl 


n 
222 333 


[1] 


Leve] 


23 


VL UICE TRUE" "FALSE", ed 


> gl 


(2, 3, labels=c ("TRUE", "FALSE 


[1] TRUE TRUE TRUE FALSE iind FALSE 


Level 


Ls: TRUE FALSE 


# 生 成 水 平 数 为 2， 序 列 长 度 为 10 的 序列 


> gl 


(2, 1, 10) 
[1] 1212121212 


Levels: 1 2 


# 生 成 水 平 数 为 2， 每 个 水 平 重复 2 次 ， 序 列 长 度 为 10 的 序列 


> gl 


Leve] 


(2, 2, 10) 
EE EE 
S: 


VLAGICEROAS, Ee CUNT 因子 序列 


> Tla, 3, ordered = TRUE 
[1] 1 1222333 
Levels: 1« 2« 3 

2. 因 子 的 存储 方式 


在 R 语 言 中 ， 因 子 是 以 整数 型 向 量 存 储 的 ， 每 个 因子 水 平 对 应 一 个 整数 型 数字 。 对 于 字符 型 向 量 创建 的 因子 ， 


表示 因子 水 平 的 个 数 
表示 每 个 水 平 的 重复 数 
表示 生成 的 序列 的 长 度 


逻辑 值 ， 为 TRUE 表示 有 序 因 子 ， 为 FALSE 则 表示 无 序 因子 


表 2-11 d () 函数 常用 参数 


会 按照 字母 顺序 排序 ， 再 对 应 到 整数 型 向 量 中 。 


实例 : 展示 因子 在 R 中 的 存储 方式 。 


HR T 4E A 
# 创 建 字符 型 向 量 
> status«-c("Poor","Improved","Excellent","Poor") 


> class (status) # 查 看 向 量 的 类 型 
[1] "character" 
# 创 建 有 序 因子 序列 
> Status .factor<- factor (status,ordered = TRUE) 
> class (status.factor) # 查 看 数据 的 类 型 
[1] ] "ordered" Uu Fac tor" 
# 查 看 存储 模式 ， 可 以 看 出 因子 是 按 整 数 储存 的 
> storage: mode (status .factor) 
[1] "integer" 
> as.numeric (status .factor) # 转 化 为 数值 型 向 量 
[X] 5213 
» levels (status.factor) # 查 看 因子 的 水 平 
[1] "Excellent" "Improved" "Poor" 
2.2.6 ”列表 


列表 (list) 是 R 的 数据 类 型 中 最 为 复杂 的 一 种 。 一 般 来 说 ， 列 表 融 是 一 些 对 象 (或 成 分 ，component) 的 有 序 集合 。 列 表 人 允许 整合 若干 (可 能 无 关 的 ) 对 象 到 单个 对 象 名 下 。 例 如 ， 某 个 列表 中 可 能 是 


若干 向 量 、 和 矩 阵 、 数 据 框 ， 甚 至 其 他 列表 的 组 合 
一 般 地 ， 在 使 用 R 语 言 进行 数据 分 析 和 挖掘 的 过 程 中 ， 向 量 和 数据 框 的 使 用 频率 是 最 高 的 ， 列 表 则 在 存储 较 复 杂 的 数据 时 作为 数据 对 象 类 型 。 
由 于 两 个 原因 ， 列 表 成 为 了 R 中 的 重要 数据 结构 。 首 先 ， 列 表 允 许 以 一 种 简单 的 方式 组 织 和 重新 调用 不 相干 的 信息 。 其 次 ,许多 R 遂 数 的 运行 结果 都 是 以 列表 的 形式 返回 的 
(1) 创建 列表 
通过 list () 函数 创建 列表 。 


.使 用 格式 : 


list (objectl,object2, http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15770/OEBPS/Text/...) 


其 中 的 对 象 可 以 是 目前 为 止 讲 过 的 任何 类 型 。 


:为 列表 中 的 对 象 命 名 


list (namel-object1, name2-0bject2, http: / /www .hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15770/OEBPS/Text/...) 


: 实例 : 创建 包含 多 种 类 型 的 向 量 的 列表 及 内 含 多 种 结构 的 列表 。 


## 创 建 列 表 
# 创 建 一 个 包含 不 同 数据 类 型 的 向 量 的 列表 
> data<-list (a=c(1,2,3,4),b=c ("one", "two", "three"),c=c (TRUE, FALSE) ,d= (1421) ) 


> data 

$a 

[1] 1234 

$b 

[1] "one" "two" "three" 

$c 

[1] TRUE FALS 

$d 

[1] 1+2i 

> summary (data) # 查 看 列表 的 数据 结构 
Length Class Mode 

a 4 -none- numeric 

b 3 -none- character 

c 2 -none- logical 

d 1 -none- complex 


# 创 建 一 个 内 含 多 种 结构 的 列表 
> g«-"My List" 

» h«-c(25,26,18,39) 

> j«-matrix(1:10,nrow-5) 


GE— OG TIE. QE. EHIK 


> mylist«-list (title-g,ages-h,j) 
» mylist # 输 出 列表 
$title 
[1] "My List" 
$ages 
[1] 25 26 18 39 
[[3] ] 
[,1] L2] 
s] 1 6 
[2,] 2 7 
[3, ] 3 8 
[4,] 4 9 
[5,] 5 10 
» summary (mylist) # 查 看 列表 的 数据 结构 
Length Class Mode 
title 1 -none- character 
ages 4 -none- numeric 
10 -none- numeric 


(2) 列表 索引 
与 数据 框 类 似 ， 可 以 在 双重 方 括号 中 指明 代表 某 个 成 分 的 数字 或 名 称 来 访问 列表 中 的 元 素 ， 也 可 以 通过 $ 符 号 来 按 名 称 索引 列 。 


实例 : 使 用 多 种 方式 进行 列表 索引 。 


## 列 表 索 引 

井 示例 列表 

> data«-list (a2c(1,2,3,4),b-c ("one", "two", three"),c-c (TRUE, FALSE) , d- (1*21)) 
> data 

$a 

[1] 1234 

$b 

[1] "one" "two" "three" 

$c 

[1] TRUE FALSE 

$d 

[1] 1+2i 

# 列 索引 

> data[[11] # 索 引 第 一 列 
[111234 

> dataSa # 索 引 列 名 称 为 a 的 列 
[1112 4 

» data[["a"]] # 索 引 列 名 称 为 a 的 列 


[1] 1234 

TX 

> data[[1]] [1] # 索 引 第 一 列 的 第 一 个 元 素 
[1] 1 


(3) 列表 编辑 
列表 的 编辑 与 向 量 类 似 ， 使 用 c () 遂 数 进行 合并 。 与 其 他 数据 结构 不 同 的 是 ， 把 列表 转化 为 向 量 需要 用 到 函数 unlist () 。 


* 实例 : 对 列表 进行 合并 及 将 列表 转化 为 向 量 。 


EDDA SHE 
# 示 例 列 表 
> data«-list (a2c(1,2,3,4),b-c ("one", "two", "three"),c=c (TRUE, FALSE) , d- (1+21) ) 


TRUE FALSE 


Sd 
[1] 142i 

# 增 加 名 称 为 e 的 一 列 

> (datal«-c (data, list (e=c (5,6,7)))) 
$a 
[1] 1234 
Sb 


"one" "two" "three" 


$c. 
[1] TRUE FALSE 


$d 
[1] 142i 
Se 


[1] 56 7 

# 男 外 一 种 形式 ; KERFA 

> (data2<-c (data,e-list (c(5,6,7)))) 
$a 


11234 
Sb 
[1] "one" "two" "three" 
$c 
[1] TRUE FALSE 
Sd 
[1] 142i 
$e 
[1] 56 7 
# 列 表 转 化 为 向 量 
> unlist (datal) 
al a a3 a4 bl D2 D3 ci C2 d 
LU 1 "T nom "3 "An "one" "two" "three" "TRUE" "FALSE" "7 十 2 1 LU 
el e2 e3 
WEN "non" mw 


2.3 数据 文件 的 读 写 


R 可 从 键盘 、 文 本 文件 、Microsoft Excel 和 Access、 流 行 的 统计 软件 、 特 殊 格 式 的 文件 ， 以 及 多 种 关系 型 数据 库 中 导入 数据 ， 如 图 2-1 所 示 。 


统计 软件 


ASCII. 


文本 文件 | XML — 
—» 
Web 抓 取 数 据 


SQL MySQL Oracle Access 
数据 库 官 理 系 统 


图 2-1 R 可 以 导入 的 数据 源 


2.3.1 ”键盘 输入 数据 
R 中 的 函数 edit () 会 自动 调用 一 个 允许 手动 输入 数据 的 文本 编辑 器 。 具 体 步骤 如 下 : 
创建 一 个 空 数据 框 (或 和 矩阵) ， 其 中 变量 名 和 变量 的 类 型 需 与 理想 中 的 最 终 数据 集 一 致 。 
针对 这 个 数据 对 象 调用 文本 编辑 器 ， 输 入 数据 ， 并 将 结果 保存 到 此 数据 对 象 中 。 


. 实例 : 使 用 键盘 输入 数据 。 


## 键 盘 输 入 

# 创 建 一 个 指定 模式 但 不 含 数据 的 变量 

mydata«-data.frame (age-numeric (0) , gender-character (0) ,weight-numeric (0)) 
# 键 盘 输 入 变量 

mydata«-edit (mydata) 

EA 外 一 种 键盘 输入 的 方法 

fix (mydata) 


运行 代码 中 的 edit () 函数 后 ， 弹 出 R 语 言 中 的 数据 编辑 器 ， 如 图 2-2 所 示 。 


T) 数据 编辑 器 | oU, m 


文件 编辑 帮助 o 


age |gender |weight |var4 |vars |var6 Jvar7 | 
afo | | e e y S 
L2] | | | p o] e 


EN NEM 
NENNEN 
EN 
EN NEM 
EN 
EN NM 
NS NN 
ECH NENNEN 
NENNEN 
ENEN 
NENNEN 
NM 


p 


图 2-2 ”数据 编辑 器 

需要 注意 的 是 ，edit () 函数 实际 上 是 在 对 象 的 副本 上 进行 操作 ， 如 果 不 将 其 赋值 到 一 个 目标 ， 则 不 会 保留 改动 ， 而 fix () 函数 会 保留 改动 。 

从 键盘 手动 输入 数据 只 适合 小 数据 集 ， 大 部 分 时 候 ， 需 要 处 理 的 都 是 较 大 的 数据 集 ， 这 时 候 就 需要 别 的 方式 来 从 文本 文件 、Excel 电 子 表格 、 其 他 统计 软件 或 者 数据 库 中 读 取 文 件 。 
2.3.2 ” 读 取 不 同 格 式 的 数据 

R 语 言 提供 丰富 的 函数 读 取 不 同 格式 的 数据 ， 包 括 文 本 文件 (TXT) 、 逗 号 分 隔 文件 (CSV) 。 此 外 ， 通 过 R 扩 展 包 也 可 以 读 取 Excel 文 件 。 

(1) TXTx ffr 

使 用 read.table () 函数 从 带 分 隔 符 的 文本 文件 中 导入 数据 。 此 浮 数 可 读 入 一 个 表格 格式 的 文件 并 将 其 保存 为 一 个 数据 框 。 

其 语法 如 下 : 


read.table(file, header = FALSE, sep = "", quote = "\"", dec = ".", 
fill-TRUE, row.names,col.names, encoding-"unkown",http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15770/OEBPS/Text/...) 


函数 参数 见 表 2-12。 


表 2-12 read.table () 函数 常用 参数 
文件 名 ( 包 在 "" 内 ， 或 使 用 一 个 字符 型 变量 )， 可 能 需要 全 路 径 (即使 是 在 Windows 下 ， 符 号 \ 也 不 


允许 包含 在 内 ， 必 须 用 /或 者 \ 替换 )， 或 者 是 一 个 URL 链接 (用 URL 对 文件 远程 访问 ) 

—À 一 个 罗 辑 值 ， 用 来 反映 这 个 文件 的 第 一 行 是 否 包 含 变量 名 ， 为 TRUE 时 ， 表 示 文 件 的 第 二 行为 变量 名 
- 文件 中 的 字段 分 离 符 ， 例 如 对 用 制 表 符 分 隔 的 文件 使 用 sep="t 

— 指定 用 于 包围 字符 型 数据 的 字符 

"m 用 来 标识 小 数 点 的 字符 

fill 如 果 为 TRUE 是 非 所 有 的 行 中 变量 数目 相同 ， 则 用 空 日 填补 


row.names 保存 行 名 的 回 量 ， 或 文件 中 一 个 变量 的 序号 或 名 字 ， 缺 省 时 行 号 取 为 1，2，3， 
col.names 指定 列 名 的 字符 型 回 量 ， 缺 省 值 为 V1，V2，V3， 
encoding 右 文 件 中 包含 非 ASCI 字符 字段 ， 使 用 此 参数 进行 设置 ， 确 保 以 正确 的 编码 方式 谈 取 ， 避 免 出 现 乱 码 


函数 read.table () 还 拥有 许多 微调 数据 导入 方式 的 追加 选项 。 更 多 详情 请 参阅 help (read.table) 。 
(2) CSV 文 件 
使 用 read.csv() 函数 从 带 逗 号 分 隔 符 的 文本 文件 中 导入 数据 。 此 函数 可 读 入 一 个 逗号 分 隔 文件 并 将 其 保存 为 一 个 数据 框 。 


.其 使 用 格式 为 : 


read.csv (file, header = TRUE, sep = ",", quote = "V'",dec = ".", fill = TRUE, comment.char = "", encoding-"unkown",http://www.hzcourse.com/resource/readBook?path-/openresources 


. 函数 参数 见 表 2-13。 


表 2-13 tead.csv () 函数 常用 参数 


参数 描述 
文件 名 ( 包 在 ”内 ,或 使 用 一 个 字符 型 变量 )， 可 能 需要 全 路 人 径 (即使 是 在 Windows F, fj Vt 


ii 不 允许 包含 在 内 ， 必 须 用 /或 痢 疏 蔡 换 )， 或 者 是 一 个 URL 链接 (用 URL 对 文件 远程 访问 ) 

一 个 人 逻辑 值 ， 用 来 反映 这 个 文件 的 第 一 行 是 否 包含 变量 名 ,为 TRUE 时 ， 表 示 文 件 的 第 一 行为 变 
量 名 

sep 文件 中 的 字段 分 离 符 ，CSYV 文件 默认 为 sep="," 

quote 指定 用 于 包围 字符 型 数据 的 字符 

dec 用 来 标识 小 数 点 的 字符 

fill WRAN TRUE 且 非 所 有 的 行 中 变量 数目 相同 ， 则 用 空 日 十 补 

Po 个 学 有 得 用 来 在 数据 文件 中 写 注释 ， 以 这 个 字符 开头 的 行将 被 忽略 (要 禁用 这 个 参数 ， 可 使 用 
comment.char-"" ) 

— 右 文 件 中 包含 非 ASCI 字符 字段 ， 使 用 此 参数 进行 设置 ， 确 保 以 正确 的 编码 方式 谈 取 ， 避 免 出 现 


乱码 


(3) Excel 文 件 
读 取 一 个 Excel 文 件 的 最 好 方式 ， 就 是 在 Excel 中 将 其 导出 为 一 个 逗号 分 隔 文件 (csv) ， 并 使 用 read.csv 将 其 导入 R 中 。 在 Windows 系 统 中 ， 也 可 以 使 用 RODBC 包 来 访问 Excel 文 件 。 


: 实例 : 使 用 RODBC 包 来 读 入 xls 文 件 。 


1HH& JE RODBC iE XLS xc 4 

H-Z RODBC &, 
install.packages ("RODBC") 
19 3i RODBC é, 
library (RODBC) 

# 建 立 RODBC 连 接 对 象 至 Excel 文 件 ， 并 将 连接 赋予 一 个 对 象 ，myfile.xls 为 文件 路 径 
channel«-odbcConnectExcel ("myfile.xls") 

# 读 取 工 作 簿 中 的 工作 表 至 一 个 数据 框 ，mysheet 为 要 读 取 的 工作 表 名 
mydataframe«-sqlFetch (channel, "mysheet") 

odbcClose (channel) # 关 闭 RODBC 连 接 


要 注意 的 是 ，odbcConnectExcel () 函数 只 能 在 32 位 的 R 中 运行 。 


Excel 2007 使 用 了 一 种 名 为 XLSX 的 文件 格式 ， 实 质 上 是 多 个 XML 文件 组 成 的 压缩 包 。xlsx 包 可 以 用 来 读 取 这 种 格式 的 电子 表格 。 在 第 一 次 使 用 此 包 之 前 请 务必 先 下载 并 安装 好 。 包 中 的 国 数 
read.xlsx () 可 将 XLSX 文 件 中 的 工作 表 导 入 为 一 个 数据 框 。 其 最 简单 的 调用 格式 是 read.xlsx (file, n) ， 其 中 file 是 Excel 2007 工 作 簿 的 所 在 路 径 ，n 为 要 导入 的 工作 表 序 号 。xlsx 包 不 仅仅 可 以 导入 数据 
表 ， 还 能 够 创建 和 操作 XLSX 文 件 。 需 要 注意 的 是 ，xlsx 包 依赖 Java 包 ， 需 要 在 本 地 配置 好 java。 


2.3.3 ”从 其 他 统计 软件 获取 数据 
由 于 某 些 原 因 ， 可 能 需要 从 其 他 格式 的 文件 中 读 入 数据 ， 如 SAS 的 数据 文件 、SPSS 的 数据 文件 等 。 
表 2-14 列 出 了 读 取 其 他 格式 的 文件 的 函数 。 


表 2-14 读 取 其 他 格式 文件 的 函数 


统计 软件 函数 格式 


SPSS read.spss(file,to.data.frame=TRUE) 
SAS read.ssd(libname,sectionnames,tmpXport=tempfile(),tmpProgLoc=tempfile(),sascmd=” sas" ) 
Minitab read.mtp(file) 


read.dta(file,convert.dates- TRUE,convert.factors- TRUE,missing.type-FALSE,convert.underscore- 
FALSE,warrn.missing,lables- TRUE) 


SYSTAT read.systat(file,to.data.frame- TRUE) 


STATA 


2.34 从 数据 库 获取 数据 


R 中 有 多 种 面向 关系 型 数据 库 管 理 系统 (DBMS) 的 接口 ， 包 括 Microsoft SQL Server、MicrosoftAccess、MySQL、Oracle、PostgreSQL、DB2、Sybase、Teradata 以 及 SQLite。 其 中 一 些 包 通过 原 
生 的 数据 库 驱 动 来 提供 访问 功能 ， 另 一 些 则 是 通过 ODBC 或 JDBC 来 实现 访问 的 。 


在 R 中 通过 RODBC 包 访问 一 个 数据 库 也 许 是 最 流行 的 方式 ， 这 种 方式 允许 Ri 连接 到 任意 一 种 拥有 ODBC 驱 动 的 数据 库 ， 其 实 几 乎 就 是 市 面 上 的 所 有 数据 库 。 
第 一 步 是 针对 系统 和 数据 库 类 型 安装 和 配置 合适 的 ODBC 驱 动 ， 它 们 并 不 是 R 的 一 部 分 。 
针对 选择 的 数据 库 安 装 并 配置 好 驱动 后 ， 请 安装 RODBC 包 。 


安装 并 调用 RODBC 包 的 代码 如 下 : 


# 安 装 RODBC 包 
install.packages ("RODBC") 
library (RODBC) 


 RODBC 包 的 常用 函数 见 表 2-15。 


表 2-15 RODBC 包 常用 函数 


常用 函数 描述 不 例 


mycon-odbcConnect("mydsn ",uid- "u 


"O 建立 并 打开 连接 


odbcConnect(dsn,uid= "" ,pwd- " E ^s 
ser ,pwd= rply ) 


sglFetch(channel,sqtable) 从 数据 库 读 取 数据 表 ， 并 返回 一 |  sglFetch(mycon, " USArrests " 
个 数据 框 对 象 ownames-" state" ) 
sgIQuery(channel,query) 回 数 据 库 提 交 一 个 查询 ， 并 返回 sglQuery(mycon, " select * from 
USArrests " ) 
sglDrop(channel,sqtable) 从 数据 库 删 除 一 个 表 sglDrop(channel," USArrests" ) 


close(channel) 关闭 连接 close(mycon) 


: 功能 : odbcConnect 建 立 一 个 到 ODBC 数 据 库 的 连接 ; sqlFetch 读 取 ODBC 数 据 库 中 的 某 个 表 到 及 的 一 个 数据 框 中 ; sqlQuery 向 ODBC 数 据 库 提交 一 个 查询 并 返回 结果 。 
- R 通 过 RODBC 包 访问 一 个 数据 库 的 实例 如 代码 清单 2-4 所 示 。 


代码 清单 2-4 ”通过 RODBC 包 访问 数据 库 示例 程序 


## 访 问 SQL 数 据 库 示例 程序 

# 查 看 内 存 使 用 及 清理 R 工 作 空 间 中 的 内 存 变量 

gc();rm(list-ls()) 

install.packages ("RODBC")  $-EXRODBCG, 

library (RODBC) # 载 入 RODBC 包 

# 通 过 一 个 数据 源 名 称 (mydsn) 、 用 户 名 (user) 以 及 密码 (rply， 如 果 没 有 设置 ， 可 以 直接 忽略 ) 打开 了 一 个 ODBC 数 据 库 连接 
mycon<-odbcConnect ("mydsn",uid="user", pwd="rply") 

# 将 RR 自 带 的 "USArrests" 表 写 进 数据 库 里 

data (USArrests) 

# 将 数据 流 保存 ， 这 时 打开 SQL Server 就 可 以 看 到 新 建 的 USArrests 表 


sqlSave (mycon, USArrests,rownames-"state",append-TRUE) 
# 清 除 USArrests 交 量 

rm(USArrests) 

# 输 出 USArrests 表 中 的 内 容 

sqlFetch (mycon, "USArrests" ,rownames-"state") 

# 对 USArrests 表 执行 了 SQL 语 旬 select， 并 将 结果 输出 

sqlQuery (mycon, "select * from USArrests") 

# 删 除 USArrests 表 

sqlDrop (channel, "USArrests") 

# 关 闭 连 接 


close (mycon) 


* 代 码 详 见 : 第 2 章 / 示 例 程 序 /code/code2-3.R 


2.3.5 ”从 网 页 获取 数据 


网 络 数 据 正在 逐渐 增多 。R 中 有 若干 用 于 抓 取 网 络 数据 的 包 。 
(1) quantmod 包 


quantmod 包 是 R 平 台 用 于 金融 建 模 的 扩展 包 ， 主 要 功能 有 : 从 多 个 数据 源 获 取 历 史 数 据 、 绘 制 金融 数据 图 表 、 在 金融 数据 图 表 中 添加 技术 指标 、 计 算 不 同时 间 尺 度 的 收益 率 、 金 融 时 间 序 列 分 析 、 金 融 


模型 拟 合 与 计算 等 。 


实例 : 使 用 quantmod 包 抓 取 创 梦 天 地 每 日 的 股票 信息 。 


## 利 用 quantmod 包 抓 取 股 票数 据 

E 抓 取 创 梦 天 地 每 日 的 股票 信息 
library (quantmod) 

getSymbols ("DSKY", scr="yahoo") 
# 查看 最 后 六 天 的 股票 记录 

tail (DSKY) 

+ 主 绘图 
chartSeries (DSKY, theme="white") 


# 三 个 基本 图 形 


barChart (DSKY, theme="white") # 条 形 图 
candleChart (DSKY,theme-"white")  # 上 蜡烛 图 
lineChart (DSKY, theme="white") # 线 图 


E 技术 分 析 图 


chartSeries (DSKY, theme="white") 


require (TTR) 

addADX () # 平均 取向 指标 ADX 
addATR() # 平均 真实 波幅 指标 ART 
addBBands() 4 布 林 线 指标 BBands 
addCCI() 4 顺 势 指标 CCI 
addEMA() # 指数 平均 指标 EMA 


(2) XML 包 
XML 包 包含 了 一 些 抓 取 网 络 数据 的 常用 遂 数 。 网 络 数据 最 简单 的 形式 是 网 络 上 的 表格 数据 ， 这 种 数据 通过 剪 切 板 复制 粘贴 到 Excel 中 。 在 R 中 也 可 以 很 容易 将 其 直接 抓 取 成 数据 框 。 


实例: 使 用 XML 包 抓 取 163 体 育 频 道中 超 栏 目的 网 络 表 格 数据 。 


##XML 包 抓 取 网 络 表 格 数据 
# readHTMLtable () 函数 
library (XML) 
strurl «- 'http://sports.163.com/zc/' 

tables <- readHTMLTable (strurl,header = FALSE,stringsAsFactors = FALSE) 
# 解决 中 文 乱码 问题 的 方法 : 将 数据 导出 到 本 地 的 上 txt 文件 ， 再 重新 导入 即 可 

table sub <- tables[[1]] 
write.table(table sub,"table sub.txt",row.names-F) 

read.table("table sub.txt",encoding - 'UTF-8',header - T) 
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本 章 首先 介绍 了 R 语 言 中 常用 的 数据 类 型 ， 包 括 常 用 数据 类 型 的 判别 及 转换 函数 ， 重 点 介绍 了 R 语 言 中 日 期 时 间 值 的 处 理 ， 以 及 未 知 类 型 对 象 的 辨别 函数 。 然 后 介绍 了 R 语 言 中 的 多 种 数据 对 象 结构 ， 其 
中 数据 框 将 是 之 后 最 常 接触 到 的 数据 对 象 。 最 后 介绍 了 R 语 言 中 有 关 数 据 文件 的 读 写 ， 重 点 介绍 了 txt 及 csv 文 件 的 读 写 ， 这 两 种 文件 将 是 实际 工作 中 最 常 使 用 的 两 种 文件 。 


25 ”上 机 实验 


1. 实 验 目的 
"了解 RR 语 言 中 数据 类 型 的 判别 及 转换 函数 ， 及 其 应 用 方法 。 


" 了解 R 语 言 中 对 数据 结构 操作 的 函数 ， 及 其 应 用 方法 。 


C 了解 RR 语言 中 读 写 数据 文件 的 方法 。 


- 掌握 读 取 日 期 时 间 值 、 数 据 类 型 的 判别 方法 及 转换 函数 。 
. 掌握 不 同 数 据 结构 的 构建 方式 和 转换 函数 。 
- 掌握 数据 文件 读 写 的 函数 。 
3. 实 验方 法 与 步骤 
(1) 实验 一 
读 取 系 统 日 期 时 间 ， 进 行 变量 类 型 的 转换 ， 对 转换 前 后 的 变量 类 型 进行 辨别 对 比 。 
1) 使 用 读 取 系 统 当前 日 期 时 间 的 3 个 函数 : Sys.Date () . Sys.time () 、date () 。 
2) 使 用 类 型 辨别 函数 class () 判断 读 取 的 3 个 不 同 的 结果 的 类 型 。 
3) 将 读 取 到 的 日 期 时 间 值 转换 为 另外 一 种 数据 类 型 : 将 年 月 日 格式 的 日 期 时 间 值 转化 为 月 日 年 格式 的 字符 串 。 
4) 判断 转换 后 的 结果 的 类 型 ， 判 定 是 否 转换 成 功 。 
(2) 实验 二 
创建 多 种 数据 结构 ， 并 进行 数据 结构 的 转换 、 索 引 、 扩 展 等 编辑 操作 。 


1) 设置 工作 空间 目录 。 


2) 创建 一 个 向 量 x， 内 含 元 素 为 序列 : 5.14.94.74.65.03.53.03.23.13.6。 


3) 查询 向 量 x 中 序号 为 3，6，9 的 元 素 ， 查 询 向 量 x 中 大 于 4.0 小 于 等 于 5.0 的 元 素 的 位 置 。 


4) 创建 一 个 向 量 Petal.Length， 内 含 等 差 序 列 : 首位 为 1.7， 等 差 为 0.1， 长 度 为 5。 


5) 创建 一 个 向 量 Petal.Width， 内 含 重复 序列 : 重复 0.2 五 次 。 


6) 创建 一 个 向 量 为 重复 因子 序列 Species: 水 平 数 为 3， 各 水 平 重复 2 次 ， 序 列 长 度 为 5， 三 个 水 平 为 : setosa, versicolor, virginica. 


7) 创建 一 个 5 行 2 列 的 矩阵， 元 素 为 向 量 x， 按 列 填 充 。 


8) 将 矩阵 写 入 数据 框 data_iris， 更 改 列 名 为 : Sepal.Length、Sepal.Width。 


9) 将 向 量 Petal.Length、Petal.Width、Species 按 列 合 并 至 数据 框 qata_iris 中 。 


10) 将 数据 框 data_iris 保 存 为 txt 文 件 ， 保 存 到 工作 空间 的 test 目 录 下 。 


(3) 实验 三 
读 取 txt 文 件 ， 进 行 编辑 操作 ， 再 写 入 另外 一 个 csv 文 件 中 。 


1) 读 取 实验 二 保存 在 test 目 录 下 的 txt 文 件 data iris, 


2) 将 R 的 示例 数据 集 iris 中 的 第 6~ 10 行 写 入 数据 框 data_iris1 中 。 


3) 将 数据 框 data_iris 与 data_iris1 合 并 为 数据 框 qata_iris2， 并 保存 为 csv 文 件 在 同 目录 下 。 


4. 思 考 与 实验 总 结 
1) 不 同 的 数据 结构 之 间 是 如 何 转换 的 ? 


2) 如 果 读 取 的 数据 中 出 现 乱 码 ， 如 何 处 理 ? 


第 3 草 REA mAH 


3.1 ”变量 的 重 命名 


在 数据 集 创建 之 后 ， 如 果 发 现 此 前 的 变量 名 称 输入 有 误 ， 或 者 对 原来 的 变量 名 称 不 满意 ， 


可 以 修改 变量 的 名 称 。R 修 改变 量 名 的 方式 有 很 多 种 ， 这 里 将 介绍 几 种 党 用 的 修改 变量 名 的 方法 ， 分 别 是 利用 交 


互 式 编辑 器 ，rename () 函数 ，names () 函数 ，colnames () 函数 和 rownames () 函数 等 来 修改 变量 名 字 。 


(1) 交互 式 编辑 器 修改 变量 名 


利用 交互 式 编辑 器 修改 变量 名 通过 fix () 国 数 来 实现 ， 若 要 修改 数据 集 x 中 的 变量 名 ， 键 入 fix (x) 即 可 打开 交互 式 编辑 器 的 界面 。 知 数据 集 为 矩阵 或 数据 框 ， 单 击 交互 式 编辑 器 界面 中 对 应 要 修改 的 变 
量 名 ， 可 手动 输入 新 的 变量 名 ; 大 数据 集 为 列表 形式 ， 则 交互 式 编辑 器 为 一 个 记事 本 ， 只 要 修改 ”.Names” 之 后 对 应 的 变量 名 ， 即 可 修改 变量 名 。 


下 面 通过 示例 展示 如 何 用 交互 式 编辑 器 修改 变量 名 。 


EXPL: 利用 交互 式 编辑 器 将 scote 数 据 集中 变量 p1 的 名 称 修改 为 student。 


## 交互 式 编辑 器 修改 变量 名 

> score«-data.frame (student-c ("A","B","C","p"), 
nM gender-c ("M", "M"; TEM "p") ; 
math-c (90,70,80,60), 

Eng=c (88,78, 69,98), 


B pl-c(66,59,NA,88) ) 
> fix(score) # 打 开交 互 式 编辑 器 ， 数 据 框 的 交互 式 编辑 器 为 一 个 ] 


> score.list-as.list(score) # 将 score 转 化 为 列表 


Data 


Editor 


> fix(score.list) # 打 开交 互 式 编辑 器 ， 列 表 的 交互 式 编辑 器 为 一 个 记事 本 


对 于 数据 框 sore， 键 入 fix (score) 后 ， 显 示 的 交互 式 编辑 器 如 图 3-1 所 示 ， 而 对 于 列表 score.list， 键 入 fix (score.list) 后 ， 呈 现 的 界面 则 如 图 3-2 所 示 。 


R8. Data Editor _ — 


X | Variable editor 


au) TR 


variable name [Chinese] | 


type © numeric C character 


图 3-1 使 用 fx () 函数 修改 数据 框 变量 名 


Ñj] Reditlfac642c6783 - 记事 本 - EE Ne 


— 


文件 (F) 编辑 (E) WEO) 查看 (V) 帮助 (H) 


structure (list (student - structure(1: 4, .Label = c("A', "B^, 

"C^, "D'), class - "factor s gender = structure (c (2L, 2L, 1L, 

1L), .Label = c(F", "W^, class = "factor" ), math = c (90, 70, 

80, 60), Eng = c (88, T8, 69 98), pl = c(66, 59, NA, 88)), .Names = c(^student', 


"gender", “math”, “Eng”, Ú hinesef )) 


图 3-2 ”使 用 fx () S ACIE CAL EE 
(2) rename () 函数 修改 变量 名 
reshape 包 中 的 rename () 函数 可 用 于 修改 数据 框 和 列表 的 变量 名 ， 但 不 能 用 于 修改 德 阵 的 变量 名 。 


.使 用 格式 : 


dataframe-rename (dataframe, c (oldname-"newname" ,http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15770/O0EBPS/Text/...)) 


其 中 oldname 为 原 变量 名 ，newname 为 新 变量 名 。 


: 实例: 使 用 fename () 函数 修改 变量 名 。 


##rename () 函数 修改 变量 名 
> ， anie # 加 载 reshape 包 
> rename (score,c(pl-"Chinese")) # 将 score 中 的 pl 重 命名 为 Chinese 


sudent gender math | Eng Chinese 
1 
M 90 88 66 

2 B M 70 78 59 
3 e F 80 9 NA 
4 D F 60 98 88 
> rename (score.list,c(pl-"Chinese")) # 将 score.1list 中 的 pl 重 命名 为 Chinese 
Şstudent 
[1] A B e D 
Levels: A B e D 
Sgender 

] M M F F 
Levels: F M 
Smath 
[1] 90 70 80 60 
SEng 
[1] 88 78 69 98 
SChinese 
[1] 66 59 NA 88 


(3) names () 函数 修改 变量 名 
. 功能 : 用 于 修改 变量 名 。 


.使 用 格式 : 


names(x) «- value 


names () 函数 和 rename () 函数 一 样 ， 可 修改 数据 框 和 列表 的 变量 名 ， 而 不 能 用 于 修改 和 矩阵 的 变量 名 ， 不 同 点 在 于 ，names () 函数 会 在 原 数 据 集中 修改 变量 名 ， 但 rename () 函数 并 不 会 直接 改 
变 原 数据 集中 的 变量 名 。 


- 实例 : 使 用 name () 函数 修改 变量 名 。 


##names () 函数 修改 变量 名 
> names (score) [5]-"Chinese" # 将 score 的 第 5 列 列 名 改 为 Chinese 


> score 
student gender math Eng Chinese 
1 A M 90 88 66 
2 B M 70 78 5 
3 C F 80 69 NA 
4 D F 60 98 88 


(4) colnames () 函数 和 rownames () 函数 修改 变量 名 
上 面 介 绍 的 rename () 函数 和 names () 函数 都 不 能 用 于 修改 德 阵 的 变量 名 ，R 中 用 于 修改 德 阵 行 名 和 列 名 的 函数 是 rownames () 和 colnames () ， 这 两 个 函数 也 能 够 修改 数据 框 的 行 名 和 人 列 名 。 


.使 用 格式 : 


rownames (x) «- value 
colnames (x) «- value 


其 中 ，x 为 数据 集 ，value 为 新 的 变量 名 。 
注意 rownames () 函数 和 colnames () 不 能 用 于 修改 列表 的 变量 名 。 


- 实例 : 使 用 colhames () 有 函数 修改 变量 名 。 


##colnames 马 数 和 Frownames 函 数 修改 变量 名 
> colnames (score) [5]="Chinese" # 将 score 的 第 5 列 列 名 改 为 Chinese 
»rownames(score)-letters[1:4] # 将 score 的 行 名 改 为 a, b,c,d 


> score 
student gender math Eng Chinese 
a A M 90 88 66 
b B M 70 78 59 
C C F 80 69 NA 
d D F 60 98 88 
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3.1 ”变量 的 重 命名 

在 数据 集 创建 之 后 ， 如 果 发 现 此 前 的 变量 名 称 输入 有 误 ， 或 者 对 原来 的 变量 名 称 不 满意 ， 可 以 修改 变量 的 名 称 。R 修 改变 量 名 的 方式 有 很 多 种 ， 这 里 将 介绍 几 种 常用 的 修改 变量 名 的 方法 ， 分 别 是 利用 交 
互 式 编辑 器 ，rename () Až, names () 函数 ，colnames () 国 数 和 rownames () 函数 等 来 修改 变量 名 字 。 

(1) 交互 式 编辑 器 修改 变量 名 


利用 交互 式 编辑 器 修改 变量 名 通过 fix () 函数 来 实现 ， 若 要 修改 数据 集 x 中 的 变量 名 ， 键 入 fix (x) 即 可 打开 交互 式 编辑 器 的 界面 。 若 数据 集 为 和 矩阵 或 数据 框 ， 单 击 交 互 式 编辑 器 界面 中 对 应 要 修改 的 变 
量 名 ， 可 手动 输入 新 的 变量 名 ; 铝 数 据 集 为 列表 形式 ， 则 交互 式 编辑 器 为 一 个 记事 本 ， 只 要 修改 ”.Names” 之 后 对 应 的 变量 名 ， 即 可 修改 变量 名 。 


下 面 通过 示例 展示 如 何 用 交互 式 编辑 器 修改 变量 名 。 


: 实例 : 利用 交互 式 编辑 器 将 scote 数 据 集中 变量 p1 的 名 称 修 改 为 student。 


## 交互 式 编辑 器 修改 变量 名 
> score«-data.frame (student-c ("A™", "B", "C", "D"), 
十 gender-c ("M", WM" "p. "gm ; 
math-c(90,70,80,60), 
Eng-c(88,78,69,98), 

pl=c (66, 59, NA, 88) ) 
fix (score) # 打 开交 互 式 编辑 器 ， 数 据 框 的 交互 式 编辑 器 为 一 个 Data Editor 
score.list-as.list(score) # 将 score 转 化 为 列表 
fix(score.list) 上 打开 交互 式 编辑 器 ， 列 表 的 交互 式 编辑 器 为 一 个 记事 本 


UNY ctc cx 


对 于 数据 框 score， 键 入 fix (score) 后 ， 显 示 的 交互 式 编辑 器 如 图 3-1 所 示 ， 而 对 于 列表 score.list， 键 入 fix (score.list) 后 ， 呈 现 的 界面 则 如 图 3-2 所 示 。 


8 | Data Editor 
中 File Edit Help 


-— 
"i[. dw [je - 
[2]s [|w [o e [ss j 


| 3|c IF jeo je Jm | 

| $|p IF leo jæ  |88 j| variable name [Chinese | 
sJ | [| [| | 4j 

Le| | | | | j type — G numeric C character 
o |. |. [| |j 4j 

Le| | | | 


图 3-1 使 用 fx () S ICI PCACGUETE X5 


“| Reditlfac642c6783 - 记事 本 Í - b bao 


文件 (F) SSE) O) 查看 (V) 帮助 (H) 


structure(list(student = structure(1l:4, .Label = c("A", "B^, 

"C", "D'), class = "factor" ), gender - structure (c (2L, 2L, IL, 

1L), .Label = c(”F”, "W^, class = ”factor”), math = c (90, TO, 

80, 60), Eng = - c (88, T8, 69 98), pl = c(66, 59, NA, 88)), .Names = c(^student', 


"gender', math”, “Eng”, "hineseff 1 


图 3-2 使 用 x O 函数 修改 列表 变量 名 
(2) rename () 函数 修改 变量 名 
reshape 包 中 的 rename () 函数 可 用 于 修改 数据 框 和 列表 的 变量 名 ， 但 不 能 用 于 修改 矩阵 的 变量 名 。 


.使 用 格式 : 


dataframe-rename (dataframe, c (oldname-"newname" ,http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15770/OEBPS/Text/...)) 


其 中 oldname 为 原 变量 名 ，newname 为 新 变量 名 。 


: 实例: 使 用 rename () 函数 修改 变量 名 。 


##rename () 函数 修改 变量 名 
> library (reshape) # 加 载 reshape 包 
> rename (score,c(pl-"Chinese")) # 将 score 中 的 pl 重 命名 为 Chinese 


sudent gender math Eng Chinese 
1 
M 90 88 66 

2 B M 70 78 59 
3 C F 80 9 NA 
4 D F 60 98 88 
> rename (score.list,c(pl-"Chinese")) # 将 score.1ist 中 的 pl 重 命名 为 Chinese 
$student 

[1] A B C D 
Levels: A B C D 
Sgender 

|] M M F F 
Levels: F M 
Smath 

[1] 90 70 80 60 
SEng 

[1] 88 78 69 98 
SChinese 

[1] 66 59 NA 88 


(3) names () eMe SER 
. 功能 : 用 于 修改 变量 名 。 


.使 用 格式 : 


names(x) «- value 


names () 函数 和 rename () 函数 一 样 ， 可 修改 数据 框 和 列表 的 变量 名 ， 而 不 能 用 于 修改 和 矩阵 的 变量 名 ， 不 同 点 在 于 ，names () 函数 会 在 原 数 据 集中 修改 变量 名 ， 但 rename () 函数 并 不 会 直接 改 
变 原 数据 集中 的 变量 名 。 


实例 : 使 用 name () 函数 修改 变量 名 。 


##names () 函数 修改 变量 名 
> names (score) [5]-"Chinese" # 将 score 的 第 5 列 列 名 改 为 Chinese 


> score 
student gender math Eng Chinese 
1 A M 90 88 66 
2 B M 70 78 5 
3 C F 80 69 NA 
4 D F 60 98 88 


(4) colnames () 函数 和 rownames () 函数 修改 变量 名 
上 面 介绍 的 rename () 函数 和 names () 函数 都 不 能 用 于 修改 矩阵 的 变量 名 ，R 中 用 于 修改 德 阵 行 名 和 列 名 的 函数 是 rownames () 和 colnames () ， 这 两 个 函数 也 能 够 修改 数据 框 的 行 名 和 列 名 。 


.使 用 格式 : 


rownames (x) «- value 
colnames (x) «- value 


其 中 ，x 为 数据 集 ，value 为 新 的 变量 名 。 
注意 rownames () 函数 和 colnames () 不 能 用 于 修改 列表 的 变量 名 。 


: 实例 : 使 用 colnames () 函数 修改 变量 名 。 


ficolnames;Atferownamesif t4 rk ux Ek 
> colnames (score) [5]-"Chinese" # 将 score 的 第 5 列 列 名 改 为 Chinese 
»rownames(score)-letters[1:4] # 将 score 的 行 名 改 为 a, b,c,d 


> score 
student gender math Eng Chinese 
a A M 90 88 66 
b B M 70 78 59 
€ C F 80 69 NA 
d D F 60 98 88 


3.2 ”缺失 信 分 析 
在 数据 分 析 过 程 中 ， 数 据 对 象 经 常 是 不 够 完整 的 ， 也 就 是 说 ， 存 在 一 定 的 缺失 值 。 当 数据 集 存在 缺失 值 时 ， 建 模 过 程 中 就 容易 出 现 报 错 的 情况 ， 因 此 ， 缺 失 值 分 析 是 数据 分 析 过 程 中 重要 的 一 步 。 缺 失 
信 分 析 过 程 通常 包括 缺失 值 检测 和 忽 失 什 处理。 在 R 语 言 中 ， 常 用 的 缺失 什 分 析 函 数 如 表 3-1 所 示 。 
表 3-1 缺失 值 分 析 函 数 
返回 一 个 与 x 等 长 的 逻辑 回 量 ， 并 且 由 相应 位 置 的 元 素 是 否 是 NA 来 决定 这 个 逻辑 回 量 


HA) 相应 位 置 的 元 素 是 TRUE 还 是 FALSE, TRUE 表示 该 位 置 的 元 素 是 缺失 值 

anyNA(x, recursive =| ”判断 数据 中 是 否 存 在 缺失 值 ， 返 回 TRUE 或 FALSE 信 。 帮 存在 缺失 值 ， 则 返回 TRUE, 
FALSE) 否则 返回 FALSE 

na.omit(x) 删除 含有 缺失 值 的 观测 


complete.cases(x) 返回 一 个 逻辑 回 量 ， 不 存在 缺失 值 的 行 的 值 为 TRUE ， 存 在 缺失 值 的 行 的 值 为 FALSE 


下 面 通过 一 个 简单 的 实例 来 演示 这 几 个 函数 的 用 法 。 


实例: 检验 数据 集 scote 中 的 缺失 值 ， 并 删除 scote 中 含有 缺失 值 的 行 。 


## 缺 失 值 分 析 


> is.na(score)  # 缺 失 值 检 测 ，TURE 表 明 该 位 置 的 值 为 缺失 值 
student | gender math Eng Chinese 
[1, ] FALSE FALSE FALSE FALSE FALSE 
[2,] FALSE FALSE FALSE FALSE FALSE 
[3, ] FALSE FALSE FALSE FALSE TRUE 
[4, ] FALSE FALSE FALSE FALSE FALSE 
> anyNA(score) # 检 测 score 是 否 存 在 缺失 值 
[1] TRUE 
> na.omit(score) # 删 除 score 中 存在 缺失 值 的 行 
student ender math Eng Chinese 
1 M 90 88 66 
2 B M 70 78 59 
4 D F 60 98 88 
> complete.cases(score) # 检 测 哪 一 行 存在 缺失 值 ，FALSE 表 明 该 值 对 应 的 行 存在 缺失 值 
[1] TRUE TRUE FALSE TRUE 
> score[complete.cases(score),]  # 删 除 score 中 存在 缺失 值 的 行 
Student | gender Math Eng Chinese 
1 A M 90 88 6 
2 B M 70 78 59 
4 D 60 98 88 


3.3 ”数据 排序 

数据 排序 作为 一 个 重要 的 数据 处 理 方法 ， 在 数据 预 处 理 和 数据 建 模 中 都 显得 尤其 重要 。 在 R 语 言 中 ， 数 据 排序 可 以 通过 多 种 方式 实现 。 常 用 的 函数 有 三 个 ，sort () 函数 、rank () 函数 和 order () ER 
数 ， 需 要 注意 的 是 ， 这 三 种 函数 的 用 法 和 返回 结果 是 不 同 的 。 

(1) sort () 

. 功能 : 对 向 量 进行 排序 ， 返 回 的 结果 是 经 过 排序 后 的 向 量 。 

B 使 用 格式 : 


= 


sort (x, na.last = NA, decreasing = FALSE 


— 


其 中 ，x 表 示 需 要 排序 的 数据 集 ; na.last 参 数 设 定 对 数据 集中 缺失 值 的 处 理 ，na.last= NA (默认 ) 表示 在 排序 结果 中 缺失 值 将 被 删除 ，na.last=TRUE 表 示 将 数据 缺失 值 放 在 最 后 ，na.last=FALSE 表 示 
将 数据 缺失 值 放 在 前 面 ; decreasing=FALSE 表 示 按 从 小 到 大 的 顺序 排序 ，decreasing=TRUE 表 示 按 从 大 到 小 的 顺序 排序 。 


实例: 对 数据 集 scote 中 的 变量 math 和 Chinese 进 行 排序 。 


HE 使 用 Sort 函数 排序 

> sort (ScoreSmath) # 对 Score 的 math 列 按照 从 小 到 大 排列 
[1] 60 70 80 90 
> sort (scoreS$math, decreasing-TRUE) # 对 score 的 math 列 按照 从 大 到 小 排列 

[1] 90 80 70 60 

> sort (score$SChinese,na.last-TRUE) # 对 Score 的 Chinese 列 按照 从 小 到 大 排列 ， 并 且 把 缺失 值 放 在 最 后 
[1] 59 66 88 NA 


(2) rank () 


功能: 返回 向 量 中 每 个 数值 对 应 的 秩 。 


E 使 用 格式 : 


rank(x, na.last = TRUE,ties.method = c("average", "first", "random", "max", "min")) 


其 中 ，x 和 na.last 参 数 合 义 同 sort () 函数 ，ties.method 用 于 设 定 对 数据 集中 重复 数据 的 秩 的 处 理 方式 ，ties.method= "average" 表示 对 重复 数据 的 秩 取 平均 值 作为 这 几 个 数据 共同 的 
秩 ，ties.method= “first” 表 示 重 复数 据 中 的 位 于 前 面 的 数据 的 秩 取 小 ， 位 于 后 边 的 依次 递增 ，“random” 表示 随机 定义 重复 数据 的 秩 ，”max” 表示 以 重复 数据 可 能 对 应 的 最 大 秩 作为 这 几 个 数据 共同 
的 秩 ，”min” 表示 以 重复 数据 可 能 对 应 的 最 小 秩 作为 这 几 个 数据 共同 的 秩 。 


- 实例 : 对 向 量 x 进 行 排序 。 


HH JE ranki dips 

2 x«-c (3,4, 2, 2, 23 3, 8, 9) 

> rank (x) # 求 出 x 的 秩 

[L] 2.5. .44.0 1:0 5.5 5.5 2.5. 7.0 8.0 

> rank(x, ties.method- "first") fGxéjfk, ties.method-"first" 
[1] 2 4 1. 5 6 3 7 8 

» rank(x, ties.method- "random") # 求 x 的 秩 ，ties.method=" random " 
[1] 2 4 1 5 6 3 

> rank (x, ties.method- "max") Jf3Exüj4k, ties.method-" max " 

[1] 3 4 1 6 6 3 7 8 


(3) order () 
` 功能 : 对 数据 进行 排序 ， 返 回 值 为 最 小 (大 ) 值 、 次 小 (大 ) dheee 次 大 (小 ) 值 、 最 大 (小 ) 值 所 在 的 位 置 。 


` 使 用 格式 : 


order (x, na.last = TRUE, decreasing = FALSE) 


其 中 ，x 和 na.last 参 数 含 义 同 sort () 函数 。 与 前 面 两 个 排序 函数 不 同 的 是 ，order () 函数 可 以 对 数据 框 进行 排序 ， 对 数据 集 data_frame 按 变量 v1、v2 进 行 排序 的 实现 形式 是 : 


data frame[order(data frame$vl, data frame$v2, | 


如 果 v1 相 同 ， 则 按 v2 的 升序 排列 。 如 果 要 将 升序 改 为 降序 ， 只 需 在 变量 前 添加 负 号 或 decreasing=TRUE 即 可 。 


zx 


实例: 将 数据 集 scofe 按 照 变 量 math 进 行 排 


Xy 


gu 

## 使 用 order 函 数 排序 
> order(score$math) # 对 scoreS$Smath 升 序 排 列 ， 返 回 的 值 表 示 对 应 值 在 原 向 量 中 的 位 置 。 
[1] 4231 
> score[order (score$math),] 

student gender math Eng Chinese 
4 D M 60 98 88 
2 B M 70 78 9 
3 C F 80 69 NA 
1 D M 90 88 6 
> score[order(-score$math),] # 输 出 排序 结果 

student gnder math Eng Chinese 
1 A M 90 8 66 
3 F 80 69 NA 
2 B M 70 78 59 
4 D F 60 98 88 


3.4 随机 抽样 


在 模拟 实际 数据 情况 时 ， 常 常会 使 用 随机 抽样 函数 来 从 整体 中 挑 出 部 分 样本 数据 。 简 单 随机 抽样 是 最 基本 的 抽样 方法 ， 是 指 从 总 体 N 个 单位 中 任意 抽取 mn 个 单位 作为 样本 ， 使 每 个 可 能 的 样本 被 抽 中 的 概 
率 相等 的 一 种 抽样 方式 。 


随机 抽样 又 分 为 重复 随机 抽样 和 不 重复 随机 抽样 两 种 。 重 复 抽样 是 指 : 本 次 从 整体 中 抽取 出 的 数据 样本 ， 在 下 一 次 抽取 时 同样 有 机 会 被 抽取 。 不 重复 抽样 就 是 : 一 旦 被 抽取 为 样本 ， 下 次 就 不 能 再 被 抽 
取 了 。 


简单 随机 抽样 可 通过 srswr () 函数 、srswor () 和 sample () 函数 实现 。srswr () 函数 和 srswor () 国 数 在 sampling 包 中 ， 使 用 前 需要 先 加 载 sampling 包 。 
(1) srswr () 

功能 : 放 回 简单 随机 抽样 。 

E SUE ES 


srswr (n,N) 


表示 在 总 体 N 中 有 放 回 地 抽取 n 个 样本 ， 返 回 一 个 长 度 为 N 的 向 量 ， 每 个 分 量 的 值 表示 抽取 次 数 。 


- 实例 : 放 回 简单 随机 抽样 。 


## 放 回 简单 随机 抽样 

> library (sampling) 

> LETTERS 

[1] "AU "p" "cn "D" "pn "pu "Er "pg" WT" up "RU "L" "M" "N" "OM "p" "OM "RU "ON "pn "py" my" 
[23] TITTTITY Wy" uyn Uyn 

> (s«-srswr(10,26)) # 在 26 个 字母 中 有 放 回 地 抽取 10 个 样本 

[1] 00001000010001100001202001 
> (obs<-((1:26) [s!=0]) ) # 提 取 被 抽 到 的 样本 单元 的 编号 

[1] 5 10 14 15 20 21 23 26 

> (n<-s[s!=0]) # 提 取 每 个 样本 被 抽 到 的 次 数 

[1] 11221 

> 


| 


11 ] 1 

(obs«-rep(obs,times-n)) # 被 抽 到 的 样本 单元 的 编号 按照 抽 到 的 次 数 重 复 。 
[l| .5 IQ 14 15.20 2L 21 23 23 206 

> (sample«-LETTERS [obs]) 

[] ] "wp" JN "N" HON "pN ny" "pw "WU "WU "yn 


(2) srswor () 


: 功能: 不 放 回 简单 随机 抽样 。 


.使 用 格式 : 


srswor (n,N) 


表示 在 总 体 N 中 无 放 回 地 抽取 mn 个 样本 ， 返 回 一 个 长 度 为 N 的 向 量 ， 每 个 分 量 的 值 表示 抽取 次 数 ， 取 值 为 0 或 1。 


" 实例 : 不 放 回 简单 随机 抽样 。 


井 # 不 放 回 简单 随机 抽样 

> library (sampling) 

» LETTERS 

[1] "AM "p" "CM "p" "pn "p" eu "pg" "WT" "M "kg" "Tn "M" "NU "on "pn" "OM "RU "On "mn "pM "XI 
[23] "W" "xu "yu "m 

> (s«-srswor(10,26)) # 在 26 个 样本 中 无 放 回 地 抽取 10 个 样本 

[1] 10001001000001100100111010 
> (obs<-((1:26) [s!=0]) )# 提 取 被 抽 到 的 样本 单元 的 编号 

[1] 1 5 81415 18 21 22 23 25 

> (sample«-LETTERS [obs]) 

[1] "AM "pn "pg" "NU "OM "RU "M mg" "WU "yn 


(3) sample () 
HR: 实现 放 回 简单 抽样 和 不 放 回 简单 随机 抽样 ， 也 可 对 数据 进行 随机 分 组 。 


` 使 用 格式 : 


sample(x, size, replace = FALSE, prob = NULL) 


随机 抽取 x 中 的 数据 ，size 为 抽取 样本 数 ，replace=FALSE 为 不 放 回 简单 随机 抽样 ，replace=TRUE 为 放 回 简单 随机 抽样 。 若 使 用 sample () 函数 对 数据 进行 分 组 ，x 为 分 组 数 ，size 为 抽取 样本 
prob 为 权重 向 量 ，replace=TRUE。 


Wk 


| 实例 : 用 sample 函 数 进行 简单 随机 抽样 。 


HHZ sample Zt adf 
» LETTERS 

[1] "mAU "p" MM "p" "pn" "pn NM "pg" LU JE "T WM "AU "Tu "M" "N" MN "pm" WO™ "RU "Su IN "pM my" 
[23] "W" "yu "yn vzn 
> sample (LETTERS, 5, replace=TRUE) # 放 回 简单 随机 抽样 
[1] "pg" "Hp" "R" "R" M ELU 
> sample (LETTERS, 5,replace-FALSE) # 不 放 回 简单 随机 抽样 
[1] "pN "M" "non "DM "T I "T 
# 生 成 随机 分 组 结果 ， 第 一 组 和 第 二 组 的 比例 为 7:3 
> n«-sample (2,26,replace=TRUE, prob=c (0.7,0.3)) 


[1] 21111211121111111212211111 

> (samplel«-LETTERS[n--1]) # 第 一 组 

[1 ] "p" t (C "p" "ES "M "H" "TH "K" "I" "M" "N" "ON "p" MOM "ON mM "W" "u "uy" TM 
> (sample2«-LETTERS[n--2]) # 第 二 组 

[1] "A" WEM "M "R" wpn WM 


3.5 ”数值 运算 函数 


和 其 他 数据 分 析 软 件 一 样 ， 在 R 语 言 中 ， 也 有 许多 可 应 用 于 数值 计算 和 统计 分 析 的 数值 永 数 ， 主 要 可 以 分 成 数学 函数 、 统 计 函 数 和 概率 函数 三 大 类 。 


常用 的 数学 函数 和 统计 函数 见 表 3-2 和 表 3-3。 


函数 描述 函数 描述 
"m e SERET 
sqrt(x) round(x,digits-n) 将 x 舍 和 人 为 指定 位 的 小 数 
ceiling(x) signif(x,digits-n) 将 x 舍 人 为 指定 的 有 效 效 字 位 数 


代码 清单 3-1 为 表 3-2 中 各 统计 函数 的 实例 。 


代码 清单 3-1 数学 函数 实例 


THECA e CP] 
x€«X-c(1.12,-1.234,3.1,2.3,-4) 
abs (x) 2&*]4à 


sqrt (25) # 平 方 根 

ceiling (x) # 不 小 于 x 的 最 小 整数 

floor (x) # 不 大 于 X 的 最 大 整数 

round (x,digits-1) do NU JR ERES d AC 
signif (x, digits=1) #x 全 入 为 指定 的 有 效 数字 位 数 
2. 统 计 函 数 


(X): 表 3-3 中 各 统计 函数 的 使 用 。 内 容 见 代码 清单 3-2。 


表 3-3 ”统计 函数 


函数 
mean(x) 
median(x) 
sd(x) 


var(x) 
quantile(x,probs) 


range(x) 

sum(x) 

min(x) 

max(x) 
scale(x,center- TRUE, 
scale- TRUE) 
diff(x,lag-n) 


平均 数 
中 位 数 
标准 差 
方差 


描述 


求 分 位 数 。 其 中 x 为 待 求 分 位 数 的 数值 型 器 量 ，probs 
为 一 个 由 [0，1] 的 概率 值 组 成 的 数值 回 量 


求 值 域 
求 和 

求 最 小 值 
求 最 大 值 
为 数据 对 


象 X 按 列 进行 中 心 化 或 标准 化 ，center=TRUE 


表示 数据 中 心 化 ，scale=TRUE 表示 数据 标准 化 


沛 后 差分 


difftime (timel, time2, units = c("auto", "secs", "mins", 


"hours", "days", "weeks")) 
代码 清单 3-2 ”统计 函数 实例 

## 统 计 函 数 实例 

mean (rivers) 1325 4ü. 

median (rivers)  # 中 位 数 

sd (rivers) TEE 


var (rivers) T3 E 
quantile (rivers,c(.3,.84)) 


range (rivers) AH 
min (rivers) # 最 小 值 
max (rivers) # 最 大 值 


scale(cars,center = T,scale = F) Top aut 
scale(cars,center - T,scale - T) # 标 准 化 
diff(cars[,1]) # 灌 后 差分 

# 求 时 间 间 隔 

date«-c ("2016-01-27","2016-02-27") 

difftime (date[2],date[1],units = "days") 
difftime (date[2],date[1],units = "weeks") 

3. 概 率 函 数 


计算 时 间 


# 计 算 0.3 和 0 .84 的 分 位 数 


# 时 间 间 隔 为 天 
# 时 间 间 隔 为 周 


在 介绍 概率 函数 之 前 ， 首 先 汇总 常用 分 布 在 R 中 的 缩写 ， 包 括 Beta 分 布 、Logistic 分 布 等 ， 详 见 表 3-4。 


负 二 项 分 布 


表 3-4 常见 分 布 的 名 称 及 其 在 R 中 的 缩写 


location-0, scale-1 || 几何 分 布 geom 


，lag 用 以 指定 沛 后 几 项 。 默 认 的 lag 值 为 1 


间 隅 ， 并 以 星期 、 天 、 时 、 分 、 秒 来 表示 


min=0, max=] 


-— 分 布 的 参数 名 称 及 分 布 的 参数 名 称 及 
柯 西 分 布 1 geom | prob 


QEPD) EIA 


正 态 分 布 
指数 分 布 
泊 松 分 布 


在 R 语 言 中 ， 常 用 的 概率 函数 有 密度 函数 、 分 布 函 数 、 分 位 数 函 数 和 生成 随机 数 函数 。 这 些 函 数 的 用 法 都 是 以 函数 结合 分 


数 ，norm 表 示 正 态 分 布 。 这 4 种 概率 函数 的 写法 如 下 : 


d= 密度 遂 数 (density) 
p= 分 布 函 数 (distribution function) 
q= (quantile function) 


r= 生 成 随机 数 (随机 偏差 ) 。 


m,n,k 
shape, scale-1 
meanlog-0, sdlog-1 


m,n 


布 的 形式 来 引用 的 ， 比 如 正 态 分 布 密度 函数 dnorm () ， 其 中 d 表 示 密 度 函 


需要 注意 的 是 ， 生 成 随机 数 的 函数 格式 为 : 


rfunc (n,pl,p2,http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15770/OEBPS/Text/...) 


其 中 func 指 概率 分 布 国 数 ，n 为 生成 数据 的 个 数 ，p1，Pp2，http://www.hzcourse.comy/resource/readBook?path=/openresources/teach_ ebook/uncompressed/15770/OEBPS/Text/...£& 43 BB 
参数 数值 ， 可 参考 表 3-4 中 分 布 的 参数 名 称 为 参数 赋值 。 


| 实例 : 随机 生成 正 态 分 布 数据 并 求 其 密度 和 分 位 数 。 


## 随 机 生成 正 态 分 布 数据 并 求 其 密度 和 分 位 数 。 
> data-rnorm(20) # 生 成 20 个 标准 正 态 分 布 的 数据 


> data 

[1] 0.8928 0.6640 -1.1013 -0.8140 0.5293 -0.0698 1.3456 0.2517 

[9] 0.7235 -0.2462 -0.3034 -1.1686 1.0073 0.2068 -0.5349 0.0770 

[17] 1.7353 0.1398 0.2915 0.5170 
> dnorm(data) # 计 算 data 中 各 个 值 对 应 标准 正 态 分 布 的 密度 

[1] 0.2678 0.3200 0.2175 0.2864 0.3468 0.3980 0.1613 0.3865 0.3071 0.3870 
[11] 0.3810 0.2015 0.2402 20.3905 0.3458 0.3978 0.0885 0.3951 0.3823 0.3490 
» pnorm (data) # 计 算 data 中 各 个 值 对 应 标准 正 态 分 布 的 分 位 数 

[1] 0.814 0.747 20.135 0.208 0.702 0.472 0.911 0.599 0.765 0.403 0.381 
[12] 0.121 0.843 0.582 0.296 0.531 0.959 0.556 0.615 0.697 


> qnorm(0.9,mean-0, sd-1) # 计 算 标 准 正 态 分 布 的 0 .9 分 位 数 
[1] 8 


3.6 ”字符 串 处 理 


1. 正 则 表达 式 简介 
正则 表达 式 不 是 R 的 专属 内 容 ， 但 大 多 数字 符 串 处 理子 数 都 使 用 正则 表达 式 。 因 此 ， 在 介绍 字符 串 处 理 函 数 前 ， 先 简单 介绍 正则 表达 式 。 


正则 表达 式 是 用 于 摘 述 或 匹配 一 个 文本 集合 的 表达 式 。 所 有 英文 字母 、 数 字 和 很 多 可 显示 的 字符 本 身 就 是 正则 表达 式 ， 用 于 匹配 它们 自己 。 比 如 “a” 就 是 字母 “a” 的 正则 表达 式 。 一 些 特殊 的 字符 在 
正则 表达 式 中 不 再 用 来 描述 它 自身 ， 它 们 在 正则 表达 式 中 已 经 被 “ 转 义 ”了 ， 这 些 字符 称 为 “元 字符 ”。 常 用 的 元 字符 见 表 3-5。 


除了 换行 以 外 的 任意 字符 
M 转 义 学 人生， 如 要 匹配 括号 就 要 写成 “\Q(\\)” 
| 表示 可 选项 ， 即 | 前 后 的 表达 式 任 选 一 个 
s 放 在 表达 式 开 始 处 表示 匹配 文本 开始 位 置 ， 放 在 方 括号 内 开始 处 表示 非 方 括号 内 的 任 一 字符 
$ 放 在 句 尾 ， 表 示 一 行 字符 串 的 结束 

(ZÈ) 

符号 描述 
() 提取 匹配 的 字符 串 ，(C\s*) 表示 连续 空格 的 字符 串 
[] 选择 方 括号 中 的 任意 一 个 (如 [a-z] 表示 任意 一 个 小 写字 符 ) 
{} 前 面 的 字符 或 表达 式 的 重复 次 数 。 如 {5,12} 表示 重复 的 次 数 不 能 少 于 5， 不 能 多 于 12， 否 则 都 不 匹配 
前 面 的 字符 或 表达 式 重 复 零 次 或 更 多 次 
二 前 面 的 字符 或 表达 式 重 复 一 次 或 更 多 次 
? 前 面 的 字符 或 表达 式 重 复 零 次 或 


正则 表达 式 符 号 运算 顺序 : 圆 括号 括 起 来 的 表达 式 最 优先 ， 然 后 是 表示 重复 次 数 的 操作 (BU*-0) ， 接 下 来 是 连接 运算 (其 实 就 是 几 个 字符 放 在 一 起 ， 如 abc) ， 最 后 是 表示 可 选项 的 运算 (|) 。 
2. 字 符 串 处 理 函 数 


字符 处 理 函 数 可 以 从 文本 型 数据 中 抽取 信息 ， 或 者 为 打印 输出 和 生成 报告 重 设 文本 的 格式 。 常 用 的 字符 串 处 理 函 数 见 表 3-6， 在 分 析 过 程 中 ， 可 根据 不 同 的 需要 选择 不 同 的 函数 对 字符 串 数 据 进行 处 理 。 


表 3-6 ”字符 串 处 理 


nchar(x) 计算 x 中 的 字符 数量 

substr(x, start, stop) 提取 或 蔡 换 一 个 字符 回 量 中 的 子 串 

grep(pattern, x, ignore.case — FALSE, perl = FALSE, value 
FALSE, fixed = FALSE, useBytes = FALSE, invert = FALSE) 


宇 符 串 查 询 ， 返 回 结果 为 匹配 项 的 下 标 


grepl(pattern, x, ignore.case = FALSE, perl = FALSE, fixed 字符 串 查询 ， 返 回 所 有 的 查询 结果 ， 并 用 逻辑 
FALSE, useBytes = FALSE) 向 量 表 示 有 没有 找到 匹配 

sub(pattern, replacement, x, 对 第 一 个 满足 条 件 的 匹配 做 奉 换 ， 原 字符 串 并 

ignore.case=FALSE, fxed=FALSE) 没有 改变 ， 要 改变 原 变 量 只 能 通过 再 赋值 的 方式 

gsub(pattern, replacement, x, ignore.case = FALSE, perl = FALSE, | 把 所 有 满足 条 件 的 匹配 都 做 替换 ， 原 字符 串 并 
fixed = FALSE, useBytes = FALSE) 没有 改变 ， 要 改变 原 变量 只 能 通过 册 赋 值 的 方式 

strsplit(x, split, fixed = FALSE, perl = FALSE, useBytes = FALSE) 在 split 处 分 割 字 符 回 量 x 中 的 元 素 


paste (..., sep =“ ,collapse=NULL) ERTER, ATE sep 
toupper(x) KR 
tolower(x) 小 写 转 换 


下 面 介 绍 grep () 、sub () 、gsub () strsplit () 和 paste () EZ. 


(1) grep () 


` 功能 : 字符 串 查 询 ， 返 回 结果 为 匹配 项 的 下 标 。 


— 


grep (pattern, x, ignore.case = FALSE, perl = FALSE, value = FALSE, fixed = FALSE, useBytes = FALSE, invert = FALSE 


若 fixed=FALSE， 则 pattern 为 一 个 正则 表达 式 。 若 fixed=TRUE， 则 pattern 为 一 个 文本 字符 串 。 

grepl () 函数 也 用 于 字符 串 的 查询 和 蔡 换 ，grep () 仪 返 回 匹 配 项 的 下 标 ， 而 grepl () 返回 一 个 逻辑 向 量 ，TRUE 表 示 匹 配 ，FALSE 表 示 不 匹配 。 两 者 用 于 提取 数据 子 集 的 结果 相同 。 
除了 上 述 提 到 的 grep 函 数 和 grep1 函 数 ， 可 用 于 字符 串 提 取 的 函数 还 有 regexpr、gregexpr 和 regexec。 

(Ep): 对 字符 串 进 行 查询 。 详 见 代码 清单 3-3。 


代码 清单 3-3 ”字符 串 查询 


## 字 符 串 查询 

txt-c("Whatever","is","worth","doing","is","worth","doing"," well") 

grep () & 

grep("e.*r|wo", txt,fixed-FALSE)  $$i4 $4 "ehttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15770/OEBPS/Text/...r"AS"wo" d$ FFE, 40 m EC 
#grepl () 函数 


grepl("e.*r|wo", txt) # 返 回 一 个 逻辑 向 量 ，TRUE 表 示 匹 配 

#gregexpr () 函数 

gregexpr("e.*r|wo", txt) # 返 回 一 个 列表 ， 结 果 包 括 匹 配 项 的 起 始 位 置 及 匹配 项 长 度 
#regexec () 函数 

regexec("e.*r|wo", txt) #2 X 5gregexpr () 函数 相同 

fregexpr () $% 4k 
regexpr("e.*r|wo", txt) 二 返回 匹配 项 的 起 始 位置 及 匹配 项 长 度 


运行 代码 清单 3-3， 得 到 部 分 结果 如 下 : 


> grep("e.*r|wo", txt,fixed-FALSE)  4$&i$ 244 "ehttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15770/OEBPS/Text/...r" AÀ"wo"4g*p4 5, i& Tt 
[1] 13 6 

> grepl("e.*r|wo", txt) # 返 回 一 个 逻辑 向 量 ，TRUE 表 示 匹 配 
[1] TRUE FALSE TRUE FALSE FALSE TRUE FALSE FALSE 

> regexpr("e.*r|wo", txt) # 返 回 匹配 项 的 起 始 位 置 及 匹配 项 长 度 
[1] 5 -1 1 -1 -1 1 -1 -I 


attr(,"match.length") 
HI 4 =l 2 =1 -1 2 91 =] 
attr (,"useBytes") 

[1] TRUE 


(2) sub () 
. 功能 : 对 第 一 个 满足 条 件 的 匹配 做 替换 。 


使 用 格式 : 


— 


sub(pattern, replacement, x, ignore.case-FALSE, fixed-FALSE 


在 x 中 搜索 pattern， 并 以 文本 replacement 将 其 替换 。 若 fixed=FALSE， 则 pattern 为 一 个 正则 表达 式 。 若 fixed=TRUE， 则 pattern 为 一 个 文本 字符 串 。 
sub 遂 数 只 对 第 一 个 满足 条 件 的 匹配 做 替换 ， 若 x 为 向 量 ， 则 对 每 个 分 量 第 一 个 满足 条 件 的 匹配 做 蔡 换 。sub 浮 数 并 没有 改变 原 字符 串 ， 要 改变 原 字符 串 只 能 通过 再 赋值 的 方式 。 
(3) gsub () 


: 功能 : 把 所 有 满足 条 件 的 匹配 都 做 替换 。 


` 使 用 格式 : 


gsub(pattern, replacement, x, ignore.case-FALSE, fixed-FALSE 


— 


gsubERZXBSFH;A- s subERÉARRIE), (Hii —HBSASSRAME), subEREAI-OS SS T IRSE SRTEBUEUBOIA EAR, TUgsubEREUEEHERPTERESUERJUUBO. "RIBIEBS — 1 (5) 58 89PU-T RESU DESERT g sub ERES 


BRER. 


-RA PRR 


## 字 符 串 替换 

> txt-c("Whatever","is","worth","doing","is"," worth", "doing", 'well") 

S sub("[tr]", "ym, txt) d4ZGES—^AMUcUAX Urt Ad&IUk" 

[1] "Whakever" "is"  "wokth" "doing" "is" “wokth" "doing" 
> gsub (" [tr]", nt. txt) # 所 有 "t" 和 "r" 替 换 为 "Kk" 

[1] "Whakevek" "is"  "wokkh" "doing" "is"  "wokkh" "doing" 


(4) strsplit () 
: 功能: 字符 串 拆 分 。 


` 使 用 格式 : 


strsplit(x, split, fixed = FALSE, perl = FALSE, useBytes = FALSE) 


"well 


wel 


TM 


在 split 处 分 割 字符 向 量 x 中 的 元 素 ， 分 割 结果 为 一 个 列表 。 若 fixed=FALSE， 则 split 为 一 个 正则 表达 式 。 若 fixed=TRUE， 则 split 为 一 个 文本 字符 串 。 


. 实例 : 字符 事 拆 分 。 


HEFE PIT 
> data <- c("2016 年 1 月 1 日 ", "2016 年 2 月 1 日 ") 


> strsplit(data, "年 ") # 以 "年 "为 分 隔 符 拆 分 字符 串 ， 字 符 串 拆 分 后 以 列表 形式 存储 
[[1]] 

[1] "201 6" "1H1H" 

[[2]] 

iL] "201 6" "2TA" 

> strsplit (data, "年 ") [[1]] [1] # 提 取 列 表 中 的 元 素 

[1 ] "201 6" 


(5) paste () 
(Xl 字符 串 连接 。 


. 使 用 格式 : 


paste (http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15770/0El 


参数 sep 表 示 分 隔 符 ， 默 认为 空格 ; 参数 collapse 可 选 ， 如 果 不 指 定 值 ， 那 么 函数 paste 的 返回 值 是 自 变量 之 间 通 过 sep 指 定 的 分 隔 符 连 接 后 得 到 的 一 个 


量 连 接 后 的 字符 型 向 量 会 再 被 连接 成 一 个 字符 串 ， 之 间 通 过 collapse 的 值 分 隔 。 


` 实例 : 字符 串 连 接 。 


## 字 符 串 连接 

> paste("AB", 1:5, sep = "") # 将 "AB" 与 向 量 1:5 连 接 起 来 

[1 ] "ABI "T U"AB2" "AB3" "ABA "T "ABS" 

> x <- list(a = "1st", b = "2nd", c = "3rd") 

> y <- list(d = 1, e = 2) 

> paste (x, y, sep = "-")  # 用 符号 "-" 连 接 x 与 y， 较 短 的 向 量 被 循环 使 用 

[1] "1st-1" "2nd-2" "3rd-1" 

> paste(x, y, sep = "-", collapse = "; ") # 设 置 collapse 参 数 ， 连 成 一 个 字符 串 
[1] "lst-1; 2nd-2; 3rd-1" 

> paste(x, collapse = ", ") # 将 xX 的 各 分 量 连接 为 一 个 字符 串 ， 符 号 "，" 为 各 分 量 的 分 隔 符 
[1] "st, 2nd, 3rd" 


37 xi 


BPS/Text/..., sep = " ", collapse = NULL) 


字符 型 向 量 ; 如 果 为 其 指定 了 特定 的 值 ， 那 么 自 


zi 
A 


在 电 商 平台 激烈 竞争 的 大 背景 下 ， 了 解 更 多 消费 者 的 心声 对 于 电 商 平台 来 说 也 变 得 越 来 越 有 必要 ， 其 中 非常 重要 的 方式 就 是 对 消费 者 的 文本 评论 数据 进行 内 在 信息 的 数据 挖掘 分 析 。 文 本 分 词 作为 文本 
挖掘 中 的 重要 步骤 ， 是 非常 有 必要 了 解 和 学 习 的 。 所 谓 文本 分 词 ， 也 就 是 对 文本 进行 合理 的 分 割 ， 从 而 可 以 比较 便捷 地 获取 关键 信息 。 


在 R 语 言 中 ， 对 中 文 分 词 支持 较 好 的 有 RWordseg 包 和 jiebaR 包 。 

1.RWordseg 包 

Rwordseg 包 依赖 于 rJava 和 java 环 境 ， 下 面 简单 介绍 rJava 包 和 Rwordseg 包 的 安装 。 
步骤 一 : 安装 Java 包 。 在 R 中 输入 命令 : 


install.packages ( "rJava" ) 


步骤 二 : 安装 JDK (Java Development Kit) 。JDK 的 版 本 需要 与 R 的 版 本 对 应 ， 如 R64 就 需要 安装 JDK64 位 。 


步骤 三 : 设置 环境 变量 。 在 R 中 运行 如 下 命令 : 
Sys.setenv (JAVA HOME-'C: WProgram Files\NWavaNNre ) 
'C: \\Program FilesS\NavaNNjre' 修 改 为 JDK 的 实际 路 径 。 


步骤 四 : 安装 RWordseg 包 。 在 R 中 输入 命令 : 


install.packages ( "Rwordseg" , repos- "http;//R-Forge.R-project.org" ) 
步骤 五 : 加 载 Java 和 Rwordseg 包 。 
实现 文本 分 词 ， 关 键 的 步骤 包括 导入 和 删除 词 库 、 添 加 和 外 载 词典 、 中 文 分 词 等 ，RWordseg 包 常用 的 函数 及 其 描述 如 表 3-7 所 示 。 
表 3-7 RWordseg 包 常用 文本 分 词 函 数 
函数 描述 
回 词 库 中 导入 新 闻 汇 ，save=TRUE 时 ， 表 示 把 操作 记录 下 来 ， 
下 回 局 动能 直接 用 
delete Words(x) 从 词 库 中 删除 词汇 
查看 人 名 识别 功能 的 状态 ， 结 果 为 TRUE 表明 能 够 识别 ， 绪 果 
为 FALSE 表明 不 能 识别 
segment.options(“isNameRecognition”=TRUE) | 设置 人 名 识别 功能 的 状态 ， 设 为 TRUE 即 可 实现 人 名 识别 功能 


insertWords(x,save- TRUE) 


getOption( "isNameRecognition" ) 


listDict() 查看 词典 
installDict() 添加 用 户 目 定义 的 字典 
uninstallDict() 


BIRRE Est XC 
segmentCN() 中 文 分 词 


下 面 进 一 步 介 绍 installDict () , uninstallDict () 和 segmentCN () 函数 。 
(1) installDict () 
` 功能 : 添加 用 户 自 定义 的 字典 。 


使 用 格式 : 


installDict(dictpath, dictname,dicttype = c("text", "scel"), load = TRUE) 


其 中 ，dictpath 表 示 需 要 安装 词典 的 路 径 ; dictname 为 自 定 义 的 词典 名 称 ; dicttype 表 示 安 装 的 词典 类 型 ，”tex” 为 普通 文本 格式 ，”scel” 为 Sogou 细 胞 词典 (可 在 Sogou 官 网 下 载 ) ; load 表 示 安 
装 后 是 否 自动 加 载 到 内 存 ， 默 认为 TRUE。 


(2) uninstallDict () 
| 功能: 卸载 用 户 自 定义 的 字典 
“ 使 用 格式 : 


uninstallDict (removedict = listDict()S$Name, remove = TRUE 


~ 一 


其 中 ，removedict 指 定 要 镍 载 的 词典 名 称 ; remove 表 示 是 否 立即 清除 词典 中 的 词语 ， 默 认为 TRUE。 
(3) segmentCN () 

功能 : 中 文 分 词 。 

.使 用 格式 : 


segmentCN(x,nature-TRUE, nosymbol-TURE 


— 


其 中 ， 参 数 nature 可 以 设置 是 否 输出 词性 ， 默 认 不 输出 ， 如 果 选 择 输出 ， 那 么 返回 的 向 量 名 为 词性 的 标识 。 参 数 nosymbol 默 认为 TURE， 表 示 不 输出 标点 ， 只 能 有 汉字 、 英 文 和 数字 。 不 过 目前 的 词性 
识别 和 标点 识别 比较 容易 出 现 识 别 出 错 的 情况 ， 结 果 仪 作为 参考 。 


这 些 函 数 的 用 法 将 通过 下 面 的 简单 例子 来 更 好 地 展示 ， 如 代码 清单 3-4 所 示 。 


代码 清单 3-4 RWordseg 包 文本 分 词 


library (rJava) 


library (Rwordseg) 

FELADA 

segmentCN ("雷克萨斯 品牌 ") # 对 "雷克萨斯 品牌 "进行 分 词 
insertWords (c ("雷克萨斯 ")) 非 导 入 词汇 

segmentCN ("雷克萨斯 品牌 ") # 导 入 词汇 后 再 次 分 词 
deleteWords (c ("雷克萨斯 ")) “# 删 除 词汇 

segmentCN ("雷克萨斯 品牌 ") # 删 除 词汇 后 再 次 分 词 


## 载 入 词典 并 进行 文本 分 词 
# 词 典 下 载 链 接 : http://pinyin.sogou.com/dict/detail/index/15153 


installDict (dictpath = ".\\data\\ 汽 车 词汇 大 全 .scel"，dictname = 'qiche' ) # 加 载 词典 并 命名 为 diche 
listDict () # 查 看 词典 
segmentCN (" 雷 克 萨 斯 品牌 ") # 加 载 词典 后 再 次 分 词 


uninstallDict() # 纯 载 词典 


运行 代码 清单 3-4 得 到 部 分 结果 如 下 : 


## 文 本 分 词 


> segmentCN (" 雷 克 萨 斯 品牌 ") # 对 "雷克萨斯 品牌 "进行 分 词 
[1] Wap waT Ww cx "Jj" "dnm" 
> idsertWords (3 (" 雷 克 萨 斯 ") ) # 导 入 词汇 
a ue # 导 入 词汇 后 再 次 分 词 
[1] " 雷 克 萨 其 ig" "品牌 " 
> deleteWords (c (" 雷 克 萨 斯 ") ) # 删 除 词 汇 
> segmentCN( 人 大 删除 词汇 后 再 次 分 词 
[1] Mn NM "gk" nap " m VAL 
> instal1Di ct(dictpath = "ESNNIA EGRE K 4s scel", dictname = 'qiche' 
2388 words were loaded! htt 
> listDict()  # 查 看 词典 

Name Type Des 

qiche 汽车 官方 推荐 ， 词 库 来 源 于 网 友 上 传 ! 

Path 


1 d:/Program Files/R/R-3.2.0/library/Rwordseg/dict/qiche.dic 
> segmentCN (" 雷 克 萨 斯 品牌 ") # 加 载 词典 后 再 次 分 词 

[1] "雷克萨斯 " "品牌 " 

> uninstallDict () # 孝 载 词典 


) # 加 载 词典 并 命名 为 qiche 


p://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15770/OEBPS/Text/... 


2388 words were removed! http://www.hzcourse.com/resource/readi 


2.jiebaR 包 


jiebaR 包 支持 最 大 概率 法 (Maximum Probability) 、 
词 提取 、 文 本 Simhash 相 似 度 比较 等 功能 。 


隐 式 马尔 科 夫 模型 (Hidden Markov Model) 


Book?path-/openresources/teach ebook/uncompressed/15770/OEBPS/Text/... 


New dictionary 'qiche' was installed! 


The dictionary 'qiche' was uninstalled! 


、 索 引 模 型 (QuerySegment) 、 混 合 模型 (MixSegment) 4 种 分 词 模 式 ， 还 有 词性 标注 、 关 键 


(1) 分 词 
使 用 jiebaR 包 进行 分 词 ， 需 要 先 使 用 worker () 函数 初始 化 分 词 引 擎 。worker 函 数 各 参数 说 明 如 表 3-8 所 示 。 
CARRERA: 
worker (type = "mix", dict = DICTPATH, hmm = HMMPATH, user = USERPATH, idf = IDFPATH, stop word = STOPPATH, write = T, qmax = 20, topn = 5, encoding = "UTF-8", detect = T, symk 


qs 


最 大 概率 法 、 隐 式 马 / 


包括 mix、mp、hmm、query 、tag、 
尔 科 夫 模型 、 


表 3-8 wotket 函 数 参 数 说 明 


描述 

simhash 、 
索引 模型 、 词 性 标注 、 文 本 Simhash 相似 度 
可 用 于 mix, mp, query, tag, 


可 用 于 mix, hmm, query, 


可 用 于 simhash, keywords , 
可 用 于 query 分 词 引擎 


可 用 于 simhash and keywords 分 词 引 擎 


dict n 默认 为 DICTPATH, 

T 隐 马 尔 科 夫 模 型 的 路 径 ， 默 认为 HMMPATH, 
分 词 引擎 

User 用 户 自 定义 词 库 

idf 逆 文 本 频率 指数 路 径 ， 默 认为 IDFPATH, 

stop_word | ”停止 词 词 库 路 径 ， 默 认为 STOPPATH, 

qmax 词 的 最 大 查询 长 度 ， 默 认为 20， 

topn 关键 词 个 数 ， 默 认为 5， 

symbol 输出 结果 是 否 保 留待 号 ， 默 认为 上 

初始 化 分 词 引 警 后 ， 使 用 分 词 运算 符 "< = "或 者 segment () 函数 进行 


分 词 。segment () 函数 的 使 用 格式 如 下 : 


and keywords, 


tag, 


bi 


JH ZR 


分 别 为 混合 
比较 、 关 键 词 提取 


PES. 


simhash and keywords 分 词 引 擎 


simhash and keywords 


可 用 于 simhash and keywords 分 词 引 擎 
tagger and segment 分 词 引擎 


segment (code, jiebar, mod = NULL) 


code 为 中 文句 子 或 者 一 个 文本 文档 路 径 ，jiebar 为 一 个 jiebarR 分 词 引 党 


另外 ， 介 绍 jiebaR 包 中 用 于 分 词 的 符号 ”qseg”， 其 用 法 如 下 : 


qseg«-code 或 者 qseg[code ] 


code 为 中 文句 子 或 者 一 个 文本 文档 路 径 。qseg 默 认 分 词 模 式 为 ”mix” 


. 实例 : jiebaR 包 分 词 函 数 的 使 用 方法 ， 详 见 代码 清单 3-5。 


代码 清单 3-5 jiebaR 包 分 词 代码 


## jiebaR 包 文本 分 词 


library(jiebaR) # 接 受 默认 参数 ， 建 立 分 词 引擎 
mixseg = worker () # 默 认 mjix 分 词 引 擎 
mpseg-worker (type-"mp") #mp 分 词 引擎 


hmmseg-worker (type-"hmm") #hmm 分 
word=" 人 们 都 说 桂林 山水 甲 天 下 " # 使 用 分 
mixseg <= word #<= 分 词 运算 符 
mpseg<=word 

hmmseg«-word # 使 用 m 分 词 
segment (word, mixseg) 分 词 结 果 与 分 词 运 算 
# 使 用 qseg 进 行 分 词 

qseg«-word 

qseg [word] 

# 对 文件 进行 分 词 

segment (".\\data.txt",mixseg) 

mixseg <= ".\\data.txt" 
qseg<=".\\data.txt" 


MEA 
词 运算 符 进 


A 分 词 


和 符 的 结果 相同 


运行 代码 清单 3-5 得 到 部 分 结果 如 下 : 


井 使 用 分 词 运算 符 进 行 分 词 


> mixseg <= word #<= 分 词 运算 符 


擎 ，mod 可 改变 默认 的 分 词 引 擎 ， 其 值 可 为 ”mix”、”hmm”、”query 


， 可 通过 qseg$type 修 改 分 词 模 式 。 


n f II" 
~ U ~ 


" level" 


[1] "人 们 " "都 " "ai" "桂林 山水 " "ARF" 
> mpseg<=word 


[1 ] "人 们 " "都 " "说" "桂林 山水 " "WET" 
> hmmseg«-word 
Sa ] "人 们 " "都 " "3," "桂林 山 " "水 甲 X" "EU 


# 使 用 segment 进 行 分 词 
> segment (word, mixseg) #2 分 词 结 果 与 分 词 运 算 符 的 结果 相同 
[1] ] "A" "都 " " 46" "桂林 山水 " A A 


初始 化 分 词 引擎 后 ， 可 输出 worker 的 设置 ， 并 通过 ”$” 符 号 重 设 一 些 worker 的 参数 。 


实例 : 获取 worker 的 信息 "o 


## 获 取 worker 的 信息 


# 输 出 mixseg 的 设置 

> mixseg 

Worker Type: Jieba Segment 

Default Method : hmm 

Detect Encoding : TRUE 

Default Encoding:  UTF-8 

Keep Symbols : TRUE 

Output Path : 

Write File : TRUE 

By Lines : FALSE 

Max Word Length : 20 

Max Read Lines : 1e+05 

Fixed Model Components: 

$Sdict 

[1] "d:/Program Files/R/R-3.2.0/library/jiebaRD/dict/jieba.dict.utf8" 
$user 

[1] "d:/Program Files/R/R-3.2.0/library/jiebaRD/dict/user.dict.utf8" 
Shmm 

[1] "d:/Program Files/R/R-3.2.0/library/jiebaRD/dict/hmm model.utf8" 
$stop word 

NULL - 

Stimestamp 


[1] 1456726743 


一 些 参数 在 初始 化 时 已 经 确定 ， 无 法 修改 ， 可 通过 mixseg$PrivateVarible 获 得 无 法 修改 的 参数 信息 。 


Sdefault Sdetect Sencoding $symbol $output Swrite $lines Sbylines can be reset. 


zk o 


# 通 过 "$" 符 号 改变 mixseg 的 参数 

»mixseg$symbol = T # 在 输出 中 保留 加 标点 符号 

# 通 过 mixsegS$PrivateVarible 获 得 无 法 修改 的 参数 信息 

> mixseg$PrivateVarible 

$dict 

[1] "d:/Program Files/R/R-3.2.0/library/jiebaRD/dict/jieba.dict.utf8" 
$user 
[1] "d:/Program Files/R/R-3.2.0/library/jiebaRD/dict/user.dict.utf8" 
Shmm 
[1] "d:/Program Files/R/R-3.2.0/library/jiebaRD/dict/hmm model.utf8" 
$stop word 

NULL - 

Stimestamp 

[1] 1456726743 


(2) 词性 标注 


可 以 使 用 < =.tagger 或 者 tag 来 进行 分 词 和 词性 标注 ， 词 性 标注 使 用 混合 模型 分 词 ， 标 注 采 用 和 ictclas 兼 容 的 标记 法 。 


CX): 词性 标注 。 


## 词 性 标注 

> worgd=" 人 们 都 说 桂林 山水 甲 天 下 " 

> tagger = worker("tag") 44354162 934 5|3$, type-"tag" 
> tagger <= word # 对 wordq 进 行 词性 标注 

n d ?v ?ns ?1 

"AJ " bii " "4," "桂林 山 n 四 RF "n 

## 使 用 qseg 进 行 词性 标注 

> qseg$type«-"tag" # 将 分 词 模 式 改 为 "tag" 

> qseg [word] # 对 wordq 进 行 词 性 标注 

n d ?v ?ns ?1 


"人 们 " "都 " "dj" "桂林 山 水 " " 四 RTF " 


标注 的 含义 可 对 照 表 3-9 汉 语文 本 词性 标注 。 


表 3-9 ”汉语 文本 词性 标注 


词性 词性 
形 语 FEE 名 形 记 D Des] e pu | ias so pus 


名 语系 


( 续 ) 


za ER LZ [ua RT T e aan ETE 
s [es |o [em [om pewa] pam | [msms| s [ien 
[meme] c ps s Dew] 1 | 


(3) 关键 词 提 取 和 Simhash 计 算 


进行 关键 词 提 取 或 Simhash 计 算 时 ， 需 要 将 worker 中 的 type 参 数 设置 成 ”keywords” 或 ”simhash” ， 并 使 用 topn 参 数 来 设置 关键 词 个 数 。 


- 实例 : 关键 词 提取 和 Simhash 计 算 。 


## 关 键 词 提取 和 Simhash 计 算 

# 初 始 化 分 词 引擎 ，type=" keywords "， 关 键 词 个 数 为 1 
> keys = worker("keywords",topn = 1) 

> keys«-word # 提 取 word 中 的 关键 词 


10.6048 
"桂林 山水 " 
# 初 始 化 分 词 引 掌 ，type=" simhash "， 关 键 词 个 数 为 2 
> simhash = worker("simhash",topn = 2) 
> simhash <=word 


$simhash 
[1] "17867597785105042892" 
Skeyword 

10.6048 10.2631 
"桂林 山水 " " 四 Aon 


3.8 applyERZii 


RAINES ARREZ —, Wü ITHILANLRISU—SAURSERdXIAR LE, DnE, E, AREE. ZA. SGER. SAAMAA R, zESEZRBBUapplyESZADXCESCHURU, ZARRA 
的 函数 有 apply () . lapply () FADAS, S^ ESZNESDUBERRIA, SEERE, TSEEERBUGSFEXISUNDRIBÉZSERBUI FE EER, FEDVR3-10, 


PK R A ER 使 用 对 和 象 返回 结果 
apply() — | 对 和 窍 阵 、 效 组 或 痢 数据 杠 | 回 量 、 数 组 或 列表 
lapply | 对 列表 、 效 据 框 或 者 回 量 | 列表 

sapplyO ”| 对 列表 、 数 据 杠 或 者 回 量 | 问 量 、 数 组 或 列表 
tapply() | 对 不 规则 阵列 阵列 

对 多 个 列表 或 者 问 量 参数 | 列表 


mapply() 


下 面 分 别 介绍 各 个 函数 的 使 用 。 
(1) apply () 
功能 : 对 数组 或 者 矩阵 的 一 个 维度 使 用 函数 生成 列表 或 者 数组 、 向 量 。 


.使 用 格式 : 


apply (x, MARGIN, EUN，…) 


HA, AGER, JAER, ZitHEkEPEUmE, MARGIN-1ZeiBEEG, 2xxBEESU, Ec (1, 2) ，FUN 表 示 使 用 的 函数 。 


. 实例 : 计算 矩阵 x 各 行 各 列 的 均值 。 


1HH& M applys& žit 4E E 6535 fü 
»x«-matrix(1:20,ncol-4) 


>x 
[jl] L2] L3] [,4] 

[1,] 1 6 11 16 
[2，] 2 7 12 17 
[3,] 3 8 13 18 
[4,] 4 9 14 19 
[5, ] 5 10 15 20 

> apply (x,1,mean) ia di. 

[lI] 8.5 39.5. 10.5 1l. T25 

» apply(x,2,mean) PILAE 

[1] 3 8 13 18 

(2) lapply () 


Xe: 对 x 的 每 一 个 元 素 运 用 函数 ， 生 成 一 个 与 元 素 个 数 相 同 的 值 列 表 。 


使 用 格式 : 


lapply (x, FUN, -- :) 


其 中 ，x 为 数据 对 象 ， 可 以 是 列表 、 数 据 框 或 者 向 量 ，FUN 表 示 使 用 的 函数 。 


实例 : 对 列表 x 的 每 一 个 元 素 计算 均值 。 


## 使 用 lapply 兄 数 计算 各 子 列 表 的 均值 
> x <- list(a = 1:5, b = exp(0:3)) 


>x 

$a 

[1] 1 2 3 4 5 

$b 

[1] 1.000000 2.718282 7.389056 20.085537 
R # 对 列表 x 的 每 一 个 元 素 计 算 均 值 

a 

[1] 3 


$b 
[1] 7.798219 


(3) sapply () 


. 功能 : 通过 对 x 的 每 一 个 元 素 运用 函数 ， 生 成 一 个 与 元 素 个 数 相同 的 值 列 表 或 矩阵 。 


. 使 用 格式 : 


sapply (x, FUN, ,simplify-TRUE，USE.NRAMES = TRUE) 
sapply 函 数 比 lapply 函 数 多 了 一 个 simplify 参 数 。 如 果 simplify=FALSE， 则 等 价 于 lapply， 否 则 将 lapply 输 出 的 list 简 化 为 vector 或 matrix。 
实例 : 列表 list 中 的 元 素 与 数字 1~3 连 接 ， 并 以 矩阵 和 列表 两 种 形式 输出 。 


井 # 使 用 SapP1Ly 函 数 处 理 列表 的 字符 串 连接 
list-list (c("a", "p iaaa) JrC("A"， "B, "M ) 


1] "AN" "p" MM 
列表 1ist 中 的 元 素 与 数字 1~3 连 接 ， 输 出 结果 为 矩阵 
sapply(list, paste,1:3, simplify-TRUE) 

[,1] [,2] 

T] "a Tw "A qM 

25 ] "h 2" "B PAL 

[3, ] "c 3" "c 3" 
列表 1ist 中 的 元 素 与 数字 1~3 连 接 ， 输 出 结果 为 列表 


> 

> 
[ 
[1] 
[[2]] 
[1 

# 

> 


apply (list, paste,1:3 ,simplify-F) 
[1]] 


[21] 


S 
LET] 
[1] "a Tm "b 2" "c 3" 
[[2 

] 


"A "Xm "D PA "C 3M" 


(4) tapply () 
. 功能 : 对 不 规则 阵列 使 用 向 量 ， 即 对 一 组 非 空 值 按照 一 组 确定 因子 进行 相应 计算 。 


CRURA: 


tapply(x, INDEX, FUN, :…, simplify = TRUE) 


其 中 ，x 通 常 是 一 个 向 量 。INDEX 是 因子 列表 ， 和 x 长 度 一 样 。simplify 是 逻辑 变量 ， 若 取 值 为 TRUE (默认 值 ) ， 且 函数 FUN 的 计算 结果 总 是 为 一 个 标量 值 ， 那 么 函数 tapply 返 回 一 个 数组 ; 若 取 值 为 
FALSE， 则 函数 tapply 的 返回 值 为 一 个 list 对 象 。 需 要 注意 的 是 ， 当 第 二 个 参数 INDEX 不 是 因子 时 ， 函 数 tapply () 同样 有 效 ， 因 为 必要 时 ，R 会 用 as.factor () 把 参数 强制 转换 成 因子 。 


. 实例 : 计算 不 同 sex 对 应 的 height 的 均值 。 


## 使 用 上 apP1LyYy 函 数 进 行 分 组 统计 

» height «- c(174, 165, 180, 171, 160) 

> sex<-c (EI, JEEE "MS "EN "M") 

> tapply (height, sex, mean) #H jA Esex*|üjheight$344& 
F M 


170 170 


(5) mapply () 
mapply () K Æsapp yZ ZERE. pee SEEBURETASURITFUNBEEA, MAVE, BURREN. 


.使 用 格式 : 


mapply (FUN, --:-, MoreArgs-NULL, SIMPLIFY-TRUE, USE .NAMPS=TRUE ) 


其 中 ，MoreArgs 为 FUN 函 数 的 其 他 参数 列表 。SIMPLIFY 是 逻辑 或 者 字符 串 ， 取 值 为 TRUE 时 ， 将 结果 转换 为 一 个 向 量 、 和 矩阵 或 者 更 高 维 阵列 ， 但 不 是 所 有 结果 都 能 够 转换 。 


: 实例 : 使 用 mapply 函 数 重 复生 成 列表 list (x=1: 2) ) 。 


iH fmapplyd& ts A ERIA 
# 重 复生 成 列表 list (x = 1:2))， 重 复 次 数 Limes=1:3， 结 果 为 一 个 列表 
> mapply(rep, times = 1:3, MoreArgs = list(x = 1:2)) 

[1]] 


2 


[2]] 
] 1 2 ] 2 


[3]] 


] 1 2 1 2 1 2 
重复 生成 列表 list (x = 1:2) ) ， 重 复 次 数 times=c (2,2) ， 结 果 为 一 个 矩阵 
mapply(rep, times = c(2,2), MoreArgs = list(x = 1:2)) 

[,1] [z2] 


2 2 


2 2 


3.9 SURES 

R 提 供 了 许多 整合 和 重 塑 数 据 的 强大 方法 。 在 整合 数据 时 ， 往 往 将 多 组 观测 替换 为 根据 这 些 观测 计算 的 描述 性 统计 量 。 在 重 塑 数据 时 ， 则 会 通过 修改 数据 的 结构 ( 行 和 列 ) 来 决定 数据 的 组 织 方式 。 本 节 
将 介绍 几 种 数据 整合 和 重 塑 数据 的 方法 。 

1. 数 据 汇总 统计 

数据 汇总 统计 通过 aggregate () 实现 。 它 首先 将 数据 分 组 ( 按 行 ) ， 然 后 对 每 一 组 数据 进行 函数 统计 ， 最 后 把 结果 组 合成 一 个 表格 返回 。 


.使 用 格式 : 


aggregate (x, by, FUN) 
其 中 x 是 待 折 考 的 数据 对 象 ，by 是 一 个 变量 名 组 成 的 列表 ， 这 些 变量 将 被 去 掉 以 形成 新 的 观测 ，FUN 是 用 来 计算 描述 性 统计 量 的 标量 函数 ， 它 用 来 计算 新 观测 中 的 值 。 
- 实例 : 对 数据 集 mmtcars 汇 总 统计 。 


## 数 据 汇 总 统计 
> attach (mtcars) 
> colnames (mtcars) 4$ € €4£ 


[1] "mpg" "eyl" "disp" "hp" "drat" "wt" "qsec" "Ys "T "am" "gear" "carb" 
> aggregate (mtcars[,c(1,3)], by-list(cyl,gear),FUN-mean) # 数 据 江 总 统计 
Group. 1 Group. 2 mpg disp 
ii 4 3 21.500 120.1000 
2 6 3 19.750 241.5000 
3 8 3 15.050 357.6167 
4 4 4 26.925 102.625 
3 6 4 19.50 163.8000 
5 28.200 107.7000 
7 6 5 19.700 145.0000 
8 8 5 15.400 326.0000 


aggregate 函 数 计算 的 结果 中 ，Group.1 表 示 变 量 cy1，Group.2 表 示 变 量 gear， 第 一 行 的 结果 表示 cy1 为 4，gear 为 3 时 ，mpg 和 disp 的 均值 分 别 为 21.5 和 120.1。 

2. 数 据 融 合 

在 R 中 ， 数 据 融 合 通过 reshape2 包 中 的 melt () 函数 实现 。 它 会 根据 数据 类 型 (数据 框 、 数 组 或 列表 ) 选择 melt.data.frame，melt.array 或 melt.list 疯 数 进 行 实际 操作 。 

如 果 是 数组 类 型 ，melt 的 用 法 就 很 简单 ， 它 依次 组 合 各 维度 的 名 称 ， 将 数据 进行 线性 /向 量化 。 如 果 数 组 有 n 维 ， 那 么 得 到 的 结果 共有 n+1 列 ， 前 n 列 记录 数组 的 位 置信 息 ， 最 后 一 列 才 是 观测 值 。 


` 使 用 格式 : 


melt (data, varnames, value.name = "value", na.rm = FALSE 


— 


其 中 ，data 为 用 于 融合 的 数据 集 ; varnames 为 融合 后 各 维度 的 变量 名 ; value.name 为 观测 值 的 变量 名 ; na.rm 表 示 是 否 从 数据 集中 删除 缺失 值 ， 默 认为 FALSE， 不 删除 。 


如 果 是 列表 数据 ，melt 函 数 将 列表 中 的 数据 拉 成 两 列 ， 一 列 记录 列表 元 素 的 值 ， 另 一 列 记录 列表 元 素 的 名 称 ; 如 果 列 表 中 的 元 素 是 列表 ， 则 增加 列 变量 存储 元 素 名 称 。 元 素 值 排列 在 前 ， 名 称 在 后 ， 越 
是 顶级 的 列表 元 素 ， 名 称 越 靠 后 。 


如 果 数 据 是 数据 框 类 型 ，melt 的 参数 就 稍微 复杂 些 。 


` 使 用 格式 : 


melt(data, id, measure, variable.name, value.name, na.rm = FALSE 


— 


其 中 id 是 被 当 作 维度 的 列 变 量 ， 每 个 变量 在 结果 中 占 一 列 ; measure 是 被 当成 观测 值 的 列 变 量 ， 它 们 的 列 变量 名 称 和 值 分 别 组 成 variable 和 value 两 列 ， 列 变量 名 称 分 别 由 variable.name 和 value.name 


指定 。 
实例: 使 用 melt () 函数 融合 数据 框 和 数组 的 数据 。 
### 数 据 融 合 


> library (reshape2) 
THE 作用 于 数据 框 的 例子 
> head(airquality) 


Ozone Solar.R Wind Temp Month Day 
1 41 190 4.4 67 5 l 
2 36 118 8. 72 5 2 
3. 12 19 12.6 74 5 3 
18 313 LL 62 5 4 
5 NA NA 14.3 56 5 3 
6 28 NA 2 66 6 


1 5 
# 保 留 变 量 "Ozone"y "Month", "Day"， 其 他 的 变量 作为 观测 值 ， 拉 长 数据 框 。 
> air melt<-melt (airquality,id=c ("Ozone", "Month", "Day") , na .rm=TRU] 
> head(air melt) 


Lu 
— 


Ozone Month Day variable value 
i 41 5 1 Soar.R 190 
2 3 2 Solar.R 118 
3 12 5 3 Solar.R 149 
4 18 5 4 Solar.R 313 
7 23 5 T Solar.R 299 
8 19 5 8 Solar.R 99 


THE 作用 于 数组 的 例子 
> a«-array(c(1:11,NA),c(2,3,2));a 


[1] [2] [3] 
[1] 1 3 5 
(2] 2 4 6 
r2 

[1] [2] [3] 
[] 7 9 11 
[2] 8 10 NA 
> a melt«-melt (a,na.rme-TRUE, varnames=c ("X","Y","Z")) #4 把 高 维 数组 a 拉 成 一 个 数据 框 
> head(a melt) 

X Y Z value 

1 ] ] ] 1 
2 2 1 2 
3 ] 2 3 
4 2 2 4 
5 1 3 5 
6 2 3 6 
3. 数 据 重 塑 


melt 获 得 的 数据 可 以 用 acast 或 dcast 还 原 。acast 获 得 数组 ，dcast 获 得 数据 框 。 


` 使 用 格式 : 


cast (data, formula, fun.aggregate = NULL,http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15770/OEBPS/Text/...) 


其 中 ，x 为 已 融合 的 数据 ; formula 描 述 了 想 要 的 最 后 结果 ， 公 式 左 边 的 每 个 变量 都 会 作为 结果 中 的 一 列 ， 而 右边 的 变量 被 当成 因子 类 型 ， 每 个 水 平 都 会 在 结果 中 产生 一 列 ; fun.aggregate 是 数据 整合 


“ 实例 : 数据 重 塑 。 


Ws 
分 别 求 各 月 份 Solar.R，Wind，Temp 的 平均 值 

D air cast«- dcast (air melt, Month-variable, fun.aggregate = mean) 

» air cast 


Month Soar.R Wind Tem 
1 5 181.2963 11.622581 65.54839 
2 6 190.1667 10.266667 79.10000 
3 " 216.4839 8.941935 83.90323 
4 8 171.8571 8.793548 83.967714 
5 9 167.4333 10.180000 76.90000 


3.10 el 


1. 分 支 语 句 

条 件 分 支 语句 在 编程 语言 中 非常 在 R 语 言 中 ， 常 用 的 条 件 分 支 语句 包括 if/else 语 句 和 switch 语 句 。 下 面 简单 介绍 这 两 种 语句 的 用 法 。 
(1) if/else 语 句 

B 使 用 格式 : 


if (condition) {exprl} else {expr2} 


如 果 满 足 条 件 condition， 则 执行 语句 expr1， 若 不 满足 ， 则 执行 语句 expr2。expr1 和 expr2 可 为 一 个 或 一 组 语句 ， 若 只 有 一 个 语句 ， 可 省 略 大 括号 。 该 语句 可 以 实现 多 重 条 件 的 谋 套 ， 两 重 嵌 套 的 条 件 
语句 的 写法 如 下 : 


if (conditionl) {exprl} else 
if (condition2) {expr2} else 
(expr3] 


注意 ，ifyelse 语 句 不 能 写成 如 下 形式 : 


pis 


f (condition) {expr1} 
lse {expr2} 


E 


即 else 语 句 不 能 单独 一 行 ， 除 非 if/else 语 句 在 大 括号 人 内 。 


- 实例 : 若 a<0，tesult1=0， 若 0<a<1，tesult1=1， 若 a>1，tesult1=2。 


## if/elseji&é 


> a--1 

» if(a«0) 

t result-0 else if(a«1)( 
十 result-1 

t ) else 

十 result-2 

» result 

[1] 0 


(2) switch 语 名 


.使 用 格式 : 


switch (expression, list) 


其 中 ，expression 为 表达 式 ，list 为 列表 ， 可 以 用 有 名 定义 。 如 果 表 达 式 返回 值 在 1 到 length (list) 之 间 ， 则 返回 列表 相应 位 置 的 值 ; 否则 返回 ”NULL” 值 。 当 list 是 有 名 定义 ， 表 达 式 等 于 变量 名 时 ， 
回 变量 名 对 应 的 值 ; 否则 返回 ”NULL” 值 。 


实例 : 48 switchif Zik d] dp h 25 Ro 


## switcha 

> switch(2,mean(1:10),1:5,1:10) # 输 出 第 二 个 向 量 

[(1] 1 2 3 4 5 

> y«-"fruit" 

> switch(y,fruit-"apple",vegetable-"broccoli",meat-"beef") # 输 出 fruit 对 应 的 值 
[1] "apple" 


2. 循 环 语句 
常用 的 循环 语句 主要 有 fot 循 环 、while 循 环 和 repeat 循 环 。 它 们 的 用 法 如 下 。 
(1) for 循 环 


使 用 格式 : 


for (name in exprl) {expr2} 


其 中 ，name 是 循环 变量 ， 在 每 次 循环 时 从 expr1 中 顺序 取 值 ; expr1 是 一 个 向 量 表达 式 (通常 是 个 序列 ， 如 1: 20) ; expr2 通 常 是 一 组 表达 式 ， 当 name 的 值 包含 在 expr1 中 时 ， 执 行 expr2 的 语句 ， 否 
则 循环 将 终止 。 


在 循环 过 程 中 ， 若 需要 输出 每 次 循环 的 结果 ， 可 使 用 cat () 函数 或 print () 沙 数 ， 下 面 将 介绍 cat () 函数 的 使 用 方法 。 


使 用 格式 : 


cat (exprl,expr2,http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15770/OEBPS/Text/...) 
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expr1，expr2 为 需要 输出 的 内 容 ， 可 以 为 字符 串 或 表达 式 。 例 如 ， 若 expr1 为 ”name”， 则 输出 字符 串 ”name”， 若 expr1 为 变量 name， 则 输出 name 的 值 。 另 外 ， 符 号 ”Nn” 表示 换行 ， 表 


\n” 后 的 语句 在 下 一 行 输出 。 


实例 : 使 用 for 语 名 循环 输出 2、5、10 的 平方 根 。 


THE £or48 ER 

» n«-c(2,5,10) 

» for(i in n) { 

x«-sqrt(i) 4 X-EZJR 

MEI ; i j wyja "á " x P "Nan ) # 输 出 每 次 循环 的 结果 


t( 2): 1.414214 
sqrt( 5 ): 2.236068 
c( 10 ): 3.162278 


(2) while 循 环 


` 使 用 格式 : 


while(cond) {expr} 


其 中 ，cond 为 判断 条 件 ，expr 为 一 个 或 一 组 表达 式 。while 循 环 重复 执行 语句 expr， 直 到 条 件 cond 不 为 真 为 止 。 


实例 : 使 用 while 语 名 生成 10 个 斐 波 那 契 数列 。 


##while 循 环 
> x <- c(1,1) 


>i<-3 
> while (i <= 10) { # 当 i>10 时 循环 停止 
T x[i] <= x[i-1]-*x[i-2] 井 计算 前 两 项 的 和 


i <- i +1} 
> X 


[1] 1 1 2-3 > 8 13 21 34 55 


(3) repeat-breakf&zs 
repeat 是 无 限 循 环 语句 ， 并 且 会 在 达到 循环 条 件 后 ， 使 用 break 语 名 直接 跳出 循环 。 
使 用 格式 : repeat expt 或 tepeat{if (cond) {break}} 


实例 : 根据 用 户 的 单 击 数 将 用 户 分 为 “初级 用 户 ”，“ 中 级 用 户 ” 和 “高 级 用 户 ”。 


## zepeat-break 循 环 
> pv«-c(1,1,2,3,1,1,15,7,18) 


> i«-1 
> result«-"" 
> repeat{ 
if (i»length (pv)) ( HARMI 25 Sc np i6 Sb d 4 
break 
} 
if (pv[i]<=5) { 
+ result[i]«- "初级 用 户 "; # 单 击 数 小 于 等 于 5 的 用 户 为 "初级 用 户 " 
} else if (pv[i]<=15){ 
result [i]<- "中 级 用 户 "; # 单 击 数 大 于 5 小 于 等 于 15 的 用 户 为 "中 级 用 户 " 
T ) else{ 
十 result[i]«- "高 级 用 户 "; # 单 击 数 大 于 15 的 用 户 为 "高 级 用 户 " 
E J 
+  i«-i41 
+] 
> result 
[1] "初级 用 户 " "初级 用 户 " "初级 用 户 " "初级 用 户 " "初级 用 户 " "初级 用 户 " 
[7] "中 级 用 户 " "中 级 用 户 " "高 级 用 户 " 


3.11 KURS 


R 语 言 实际 上 是 函数 的 集合 ， 用 户 可 以 使 用 base、stats 等 包 中 的 基本 函数 ， 也 可 以 自己 编 


一 个 函数 的 结构 大 致 如 下 : 


myfunction<-function (arglist)(í 
Statements 
return (object) 


其 中 ，myfunction 为 函数 名 称 ，arglist 为 函数 中 的 参数 列表 ， 大 括号 { 内 的 语句 为 函数 体 
函数 体 通 常 包括 三 个 部 分 : 异常 处 理 、 运 算 过 程 、 返 回 值 。 


1 


— 


2) 运算 过 程 : 包括 具体 的 运算 步 又。 运算 过 程 和 该 函数 要 完成 的 功能 有 关 。 


3) 返回 值 : 用 return () 遂 数 给 出 ， 返 回 对 象 的 数据 类 型 是 任意 的 ， 从 标量 到 列表 皆 可 。 遂 数 在 内 部 处 理 过 程 中 ， 


- 实例 : 自 编 函 数 的 使 用 方法 ， 详 见 代 码 清 单 3-6。 


代码 清单 3-6 ” 自 编 函数 计算 标准 差 代码 


HOT IUE X 
THEE] 2 S 2C 
sd2 <- function (x) 


{ 


# 异常 处 理 ， 当 输入 的 数据 不 是 数值 类 型 时 报错 


if(l!is.numeric (x))( 


写 函 数 完成 一 定 的 功能 。 


， 子 数 参 数 是 在 函数 体内 部 将 要 处 理 的 值 ， 


异常 处 理 : 输入 的 数据 不 能 满足 函数 计算 的 要 求 ， 或 者 类 型 不 符 ， 这 时 应 设计 相应 的 机 制 提示 哪个 地 方 出 现 错误 。 


一 旦 遇 到 return () ， 就 会 


终止 运 


\ 一 /一 


AJ, 


国 数 中 的 对 象 只 在 函数 内 部 使 用 。 


{return () 内 的 数据 作为 函数 处 理 的 结果 给 


stop ("the input data must be numeric!\n") 


} 


# 异常 处 理 ， 当 仅 输入 一 个 数据 时 ， 告 知 


H- 


f (length (x) == 1){ 


stop ("can not compute sd 


不 能 计算 标准 差 


for one number, 


a numeric vector required.WNn") 


} 
ID ur PUDOREM 


+ 求 每 个 值 与 平均 值 的 平方 
<= c() 
# 求 该 向 量 的 平均 值 
meanx «- mean (X) 
# 循环 
for(i in 1:length (x))( 
xn «- x[i] - meanx 
x2[i] «- xn^2 


} 
sum2 <- sum (x2) 


EHIE 


sd <- sqrt (sum2/ (length (x) -1)) 


# 返回 值 


return (sd) 


} 

## 程序 的 检验 

# 正常 的 情况 

sd2 (c (2,6,4,9,12)) 
# 一 个 数值 的 情况 


sa2 (3) 
do 输入 数据 不 为 数值 类 型 时 
sd2 (cin T", "n2" 


运行 代码 清单 3-6， 


得 到 部 分 结果 如 下 : 


## 程序 的 检验 
# 正常 的 情况 

> sd2(c(2,6,4,9,12)) 
[1] 3.974921 

d$ 一 个 数值 的 情况 
> sd2(3) 

Error in sd2 (3) 


: can not compute sd 


for one number, 


a numeric vector required. 


E 输入 数据 不 为 数值 类 型 时 
> sd2 (EI "2"7)) 
Error in sd2(c("1", 


"2NW) ) 


elitr E ORSESERL US, MREZA 


使 用 格式 : 


: the input data must be numeric! 


国 数 Source () 调用 。 


source ("http: //www.hzcourse. 


com/resource/readBook?path-/openresources/teach ebook/uncompressed/15770/OEBPS/Text/.. 


./myf 


unction.R ") 


“http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15770/OEBPS/Text/.../myfunction.R“ 为 自 编 函数 的 保存 路 径 。 若 自 编 的 函数 在 当前 工 


作 目 录 中 ， 可 直接 使 用 语句 source 


3.12 小 结 


本 章 总 结 了 R 语 言 常用 的 数据 管理 函数 ， 包 括 变量 的 重 命名 、 缺 失 值 分 析 、 数 据 排序 随机 抽样 、 字 符 串 处 理 、 文 本 分 
对 象 上 ， 其 中 包括 向 量 、 和 矩阵 和 数据 框 。 然 后 探索 了 数据 重 整 与 融合 的 方法 ， 以 及 控制 流 结 


3.13 ”上 机 实验 


(“myfunction.R“) 调用 。 


1. 实 验 目的 

了 解 R 中 常用 的 数据 管理 方法 ， 熟 悉 基本 的 操作 过 程 。 

2. 实 验 内 容 

. 对 数据 集 进行 变量 重 命名 、 缺 失 值 分 析 、 数 据 排 序 、 随 机 抽样 、 变 量 计算 等 基本 
- 编写 一 个 函数 stat， 对 数据 进行 描述 性 统计 分 析 。 

3. 实 验方 法 与 步骤 

(1) 实验 一 


对 于 表 3-11 的 数据 集 CO2 : 


84 


1) 查看 数据 集 CO2 中 的 变量 名 称 ， 


PE, A apply Zk tAk M o 


表 3-11 CO2 数 据 集 


> 词 以 及 数 十 种 数值 运算 函数 ， 等 等 。 
吉 构 的 使 用 方法 。 最 后 编写 自己 的 函数 ， 并 将 它们 应 用 到 数据 上 。 


也 介 


i 绍 了 如 何 将 这 些 函 


9 


并 将 变量 Treatment 的 名 称 更 改 为 Treat。 


issippi 


chilled 


数 应 用 到 | 范围 广泛 的 数据 


uptake 
16.0 
30.4 
34.8 


19.9 


2) 检验 CO2 中 是 否 人 存在 缺失 值 ， 若 有 ， 检 测 缺 失 值 的 位 置 并 删除 含有 缺失 值 的 行 。 


3) 对 变量 uptake 按 从 大 到 小 和 从 小 到 大 排序 ， 并 对 数据 集 CO2 按 照 uptake 排 序 (从 大 到 小 和 从 小 到 大 ) 。 


4) 将 CO2 随 机 分 成 两 组 数据 ， 第 一 组 和 第 二 组 的 比例 为 6: 4。 


5) 应 用 tapply () 函数 ， 计 算 不 同 植物 (Plant) 对 应 的 uptake 的 平均 值 。 


6) 应 用 aggregate () 函数 ， 计 算 不 同 植物 (Plant) 、 不 同类 型 (Type) 对 应 的 uptake 的 平均 值 。 


7) 应 用 lapply () 函数 ， 同 时 计算 con 和 uptake 的 均值 。 


8) 使 用 grep () 函数 ， 碍 找 出 植物 名 称 (Plant) 中 含有 “Qn ”的 行 的 位 置 ， 并 将 这 些 行 储存 于 变量 Plant_Qn 中 。 


9) 使 用 gsub () 函数 ， 将 CO2 中 植物 名 称 (Plant) 中 的 字符 串 “Qn” 改 为 “QN”。 


1) 编写 函数 stat， 要 求 该 函数 同时 计算 均值 、 最 大 值 、 最 小 值 、 标 准 差 、 恬 度 和 偏 度 。 
skewness (x) 计算 x 的 偏 度 ，kurtosis (x) 计算 x 的 峰 度 。) 


2) 实验 二 


(提示 : R 默 认 不 提供 浮 数 计算 峰 度 和 偏 度 ， 可 以 自 编 公 式 或 者 使 用 fBasics 包 。 加 载 fBasics 包 ， 可 使 用 


2) 生成 自由 度 为 2 的 t 分 布 的 100 个 随机 数 t， 并 通过 函数 stat 计 算 t 的 均值 、 最 大 值 、 最 小 值 、 标 准 差 、 峰 度 和 偏 度 。 


4. 思 考 与 实验 总 结 
1) 对 于 一 个 新 的 未 知 的 数据 集 ， 可 以 从 哪些 方面 实现 对 数据 的 探索 ? 


2) 如 何 通 过 数据 管理 得 到 实际 情况 中 需要 的 数据 集 格式 ? 


第 4 草 图形 探 索 


R 语 言 除了 拥有 良好 的 数据 处 理 和 分 析 能 力 外 ， 对 于 数据 的 展现 也 有 极其 灵活 和 强大 的 应 用 。 由 于 图 形 对 分 析 结 果 的 表达 往往 更 直观 和 简单 ， 所 以 对 于 优秀 的 数据 分 析 报 告 而 言 


形 方式 展示 后 ， 其 沟通 效果 和 说 服 力 会 更 佳 。 


技巧 也 是 我 们 所 关注 的 。 下 面 以 一 个 简单 的 例子 开始 R 语 言 图 形 探索 之 旅 。 


， 把 数据 结果 以 适当 的 图 


本 章 重 点 介绍 向 一 幅 简单 的 图 形 中 添加 元 素 ， 以 得 到 更 加 有 用 和 更 吸引 人 的 图 形 ， 绘 制 各 种 类 型 的 图 形 的 函数 也 将 着 重 介绍 ， 将 多 幅 图 形 组 合 为 实用 的 单 幅 图 形 以 及 指定 图 形 和 边界 的 大 小 ， 这 些 绘图 


以 mtcars 数 据 集 为 例 ， 探 究 汽 车 行驶 速度 与 车 身 重量 的 关系 ， 可 以 用 一 个 散 点 图 直观 展示 。 


4.1 


* 实例 : 绘制 速度 与 重量 的 散 点 图 ， 绘 制 出 的 图 形 如 图 4-1 所 示 。 


IER ER PM 


at 


tach (mtcars) 


plot (wt,mpg) 


de 


tach (mtcars) 


图 形 元 素 


d ZR 定数 据 框 mtcars 
# 打 开 图 形 窗口 ， 绘 制 散 点 图 
# 解 除 绑 定 数据 框 mtcars 


图 4-1 


汽车 行驶 速度 与 车 身 重 量 散 点 图 


R 是 一 个 功能 强大 的 图 形 构建 平台 ， 可 以 逐条 输入 语句 构建 图 形 元 素 (颜色 、 点 、 线 、 文 本 以 及 图 例 等 ) ， 逐 渐 完 善 图 形 特 征 ， 直 至 得 到 想 要 的 效果 。 图 形 元 素 的 显示 可 以 用 图 形 函 数 和 par 函 数 的 绘图 
参数 来 改良 ， 也 可 以 用 绘制 图 形 元 素 的 基础 函数 来 控制 。 


4.1.1 颜色 


R 语 言 通过 设置 绘图 参数 col， 改 变 图 像 、 坐 标 轴 、 文 字 、 点 、 线 等 的 颜色 。 关 于 颜色 的 函数 大 致 分 为 三 类 : 固定 颜色 选择 函数 、 颜 色 生 成 和 转换 函数 和 特定 颜色 主题 调 色 板 。 
(1) 固定 颜色 选择 函数 


R 语 言 提 供 了 自 带 的 固定 种 类 的 颜色 ， 主 要 涉及 的 函数 是 colors () ， 该 函数 可 以 生成 657 种 颜色 名 称 ， 代 表 6-57 种 颜色 ， 具 体 如 下 : 


> colors () [1:20] # 查 看 前 20 种 颜色 

[1] "white" "aliceblue" "antiquewhite"  "antiquewhitel" 
[5] "antiquewhite2" "antiquewhite3" "antiquewhite4" "aquamarine" 
[9] "aquamarinel" "aquamarine2" "aquamarine3" "aquamarine4" 
[13] "azure" "azurel" "azure2" "azure3" 

[17] "azure4" "beige" "bisque" "bisquel" 


运行 colors () 只 能 获知 颜色 名 称 ， 而 不 知道 颜色 样式 ， 需 要 使 用 col 参 数 方 能 将 二 者 联系 起 来 ， 设 置 col 参 数 时 ， 直 接 填写 相关 颜色 的 代表 文字 即 可 。 图 4-2 是 colors () 函数 的 657 种 颜色 。 


图 4-2 colors () 的 颜色 样式 


实例 : 生成 colors () 函数 的 657 种 颜色 。 


par (mfrow=c (length (co] lors ()) $/$6041, 
par (mar-c(0.1,0.1,0.1,0.1),xaxs-"i", 
for(i in 1: (I1 ength (c colors ())$/8 pois 
barplot (rep (1,60),col-colors()[((i-1) 
axes-FALSE) 
box() 

} 


) 
y 
{ 
* 


6041) : (1*60)],border-colors()[((i-1)*60-41):(i*60)], 


另 一 种 是 palette () 固定 调 色 板 函数 ， 用 来 设置 调 色 板 ， 只 要 设 定好 了 调 色 板 ， 它 的 取 值 就 不 会 再 改变 (直到 下 一 次 重新 设 定 调 色 板 ) 。 


实例 : balette 函 数 的 应 用 。 


> Palette () # 返 回 当前 的 调 色 板 设 置 ， 此 时 为 默认 值 
pi 


] "black" "red" "green3" "blue" "cyan" "magenta" "yellow" "gray" 
»palette (colors () [1:10]) # 重 新 设置 调 色 板 为 colors () 的 前 10 种 颜色 
>palette()  # 返 回 当 前 的 调 色 板 设置 ， 此 时 为 Colors () 的 前 08 色 
[1] "white"  "aliceblue" "antiquewhite" MIRA "antiquewhite2" "antiquewhite3" [7]"antiquewhite4" "aquamarine"  "aquamarine" "aquamarine e2" 
>palette ("default") 4k 4 SA $38 6 E 


调 色 板 的 好 处 在 于 设置 col 参 数 时 ， 直 接 用 一 个 整数 来 表示 颜色 ， 这 个 整数 对 应 的 颜色 就 是 调 色 板 中 相应 位 置 的 颜色 。 若 整数 值 超过 了 调 色 板 颜色 向 量 的 长 度 ， 那 么 R 会 自动 取 该 整数 除 以 调 色 板 颜色 向 
量 长 度 的 余数 。 


实例 : 使 用 palette () 调 色 板 郧 数 ， 图 形 如 图 4-3 所 示 。 


图 4-3” 散 点 图 


从 这 


attach (mtcars) 


# 使 用 coLors ( 


plot co] 


) 函数 


1="red") 


poin 


# 使 用 


CS 


palette ( 


plo t 


(wt, mpg, col 


L=2 ) 


poin 


CS 


(wt [cyl--8],mpg[cy1--28],col-"blue") 
LEO 


(wt [cyl==6] ,mpg [cy1—6] , co1-3) 


poin 


CS 


(wt [cy1—-8] , mpg [cy1--8] , co1-4) 
legend(5,35,c(4,6,8),pch-1,col-2cl,bty = "n") 


points () 和 legend () 分 别 是 点 和 图 例 元 素 函 数 ， 详 见 4.1.2 和 4.1.5 节 。 


(2) i 


除了 固定 颜色 选择 


变色 生成 函数 


函数 名 称 
rgb 


rainbow 


heat.coclor 


terrain.colors 


topo.colors 


cm.colors 


brewer.pal 


函数 外 ，R 还 提供 了 一 系列 渐变 颜色 生成 函数 ， 


RGB 模型 ( uiii ciu 


彩虹 色 XR EE BEAR H s 


高 温 、 日 热 化 (GEA 


地 理 地 形 〈 绿 黄 标 日 ) 


青白 粉红 


RColorBrewer 包 提 供 的 3 套 配色 方案 


表 4-1 


这 些 函 数 用 来 控制 颜色 值 逐 


rgb 函数 把 RGB 颜色 转化 为 十 六 进 制 数值 ， 使 用 格式 的 前 四 个 参数 都 取 值 于 区 间 [0，max]， 
的 透明 度 ， 取 0 表示 完全 透明 ， 取 最 大 值 表示 完全 不 透明 (默认 ) 。 


rainbow () 


实例 : 


、heat.coclor () 、terrain.colors () 、topo.colors () 、 
个 子 集中 选取 


fgb 函 数 及 几 种 主题 调 色 板 的 颜色 样式 ， 图 形 如 图 4-4 所 示 。 


names 人 参数 用 来 指定 生成 颜色 向 量 的 名 称 。 


逐步 变化 。 主 要 的 渐变 色 生 成 函数 见 表 4-1。 


主要 的 渐变 色 生 成 函数 


使 用 格式 


rgb(red,green,blue,alpha,names=NULL,max=1) 


rainbow(n,s= 
同上 
同上 
同上 
同上 


l ,v=1,start=0,end=max(1,n-1)/n,gamma=1) 


col-brewer.pal(n," 颜色 组 * ")) 


颜色 组 * 


3 类 配色 方案 的 颜色 组 名 称 


前 三 个 参数 ， 值 越 大 就 说 明 那 种 颜色 的 成 分 越 高 ; alpha 表 示 颜 色 


cm.colors () 是 主题 配色 函数 ， 使 用 格式 中 的 n 设 定 产生 颜色 的 数目 ，start 和 end 设 定 彩 虹 颜 色 的 一 个 子 集 ， 生 成 的 颜色 将 


rgb«-rgb (red-255,green-1:255,blue-0,max-255) 


par (mfrow-c (6,1)); nc E xaxs-"i", yaxs-"i"); 

barplot (rep(1,255),col-2 rgb,border-rgb,axes-FALSE,main-"rgb");box() 

barplot (rep(1,100), Ec uc c UL 
mo a boe 10001 4) 2 x 

barplot (rep (1,100),col-heat.colors (100),border-heat.colors (100),axes-FALSE 
main-"heat.colors (100))");box() 

barplot (rep(1,100),col-terrain.colors(100),border-terrain.colors (100), axes-FALSE 
main-"terrain.colors (100))");box() 

barplot (rep (1,100),col-topo.colors (100),border-topo.colors (100),axes-FALSE 
main-"topo.colors (100))");box() 

barplot (rep (1,100),col-cm.colors (100),border-cm.colors (100),axes-FALSE, 
main-"cm.colors (100))");box() 


RColorBrewer 包 提供 如 下 3 套 配 色 方 案 。 


p 


m4 


zx 


连续 型 Sequential: 生成 一 系列 连续 渐变 的 颜色 ， 通 常用 来 标记 连续 型 数值 的 大 小 。 共 18 组 颜色 ， 每 组 分 为 9 个 渐变 颜色 展示 。 执 行 下 面 代 码 ， 得 到 的 结果 如 图 4-5 所 示 。 


library (RColorBrewer) 
par (marec (0.1,3,0.1,0.1)) 
display.brewer.all(type-"seq") 


极端 型 Diverging: 生成 用 深 色 强调 两 端 、 浅 色 标 示 中 部 的 系列 颜色 ， 可 用 来 标记 数据 中 的 利 群 点 。 共 9 组 颜色 ， 每 组 分 为 11 个 渐变 颜色 展示 。 执 行 下 面 代码 ， 得 到 的 结果 如 图 4-6 所 示 。 


display.brewer.all(type-"div") 


离散 型 Qualitative: 生成 一 系列 彼此 差异 比较 明显 的 颜色 ， 通 常用 来 标记 分 类 数据 。 共 8 组 颜色 ， 每 组 渐变 颜色 数 不 同 。 执 行 下 面 代码 ， 得 到 的 结果 如 图 4-7 所 示 。 


display.brewer.all (type-"qual") 


rgb 


BEEN — 


rainbow(100)) 


heat.colors(100)) 


terrain.colors(100)) 


topo.colors(100)) 


cm.colors(100)) 


L — — "MEME 


图 4-4 teb 函 数 及 几 种 主题 调 色 板 的 颜色 样式 


YIOrRd 20 D 
YIOrBr | M 
YIGnBu — — BM 
YIGn — — BM 
Reds |— — M 
RdPu oO D 
Rurples es 
PuRd O B 
PuBuGn oO S — | | | 
PuBu oO M 
OrRd O DM 
Oranges O BM 
Greys O —  ./| | 
Greens EE o^ ll D 
GnBu 
BuPu Oo D 
BuGn | 
Blues Oo BM 


图 4-5 连续 型 Seq 的 颜色 展示 


Spectral EM 

RdYIGn MENSES — 

RdYIGu MENS — 
IY — 
I4 — B 
Por B 
ro OU 
Piv c M —— 
M M 


图 4-6 ”极端 型 Div 的 关 色 展示 


se m 
c NNNM 
Seu M 


Pastel2 


Pastell 


LT NM NM 
EC EM 
~ 


图 4-7 ”离散 型 Qua 的 颜色 展示 
渐变 色 生成 函数 的 具体 使 用 方式 如 下 : 


实例 : 生成 rainbow () 、RColorBtewet 包 绘制 颜色 的 散 点 图 ， 图 形 如 图 4-8 所 示 。 


cl=brewer .pal (3,"Dark2") ## 左 图 代码 4 RColorBrewer 包 配色 方案 的 使 用 
par (mfrow=c (1,1)) 

plot (wt, mpg,col-cl[1]) 

points (wt [cyl==6] , mpg [cyl==6] , col=c1[2]) 

points (wt[cyl--28],mpg[cy1--8],col-2c1[3]) 

legend (5,35,c (4,6,8), pch=1, col=cl,bty="n") 

cl=rainbow (3) ## 右 图 代码 dirainbowrüAt84 M 

plot (wt, mpg, col=c1[1]) 
points (wt [cyl==6] , mpg [cyl==6] , col=c1[2]) 
points (wt[cyl--28],mpg[cy1--8],col-2c1[3]) 
legend(5,35,c(4,6,8),pch-1,col-cl,bty = "n") 


a) rainbow() 绘制 颜色 的 散 点 图 


41.2 点 


常用 的 点 符号 的 相关 参数 见 表 4-2。 


参数 


pch 
CEX 
col 
bg 
font 
Iwd 


b) RColorBrewer £222 di Bii (5,8 Hi ix E] 


Ej 4-8 


表 4-2 常用 的 点 符号 参数 
描述 

太 的 样式 ， 取 整数 0 ~ 25 或 字符 "*"、"、"、"."、"o"、"O"、"0"、"+"、"-"、"" 等 
点 的 大 小 ，1 (默认 ) 表示 不 缩放 ， 小 于 1 表示 缩放 ， 大 于 1 表示 放大 
点 边框 填充 的 颜色 
点 由 部 填充 的 颜色 ， 仅 限 21 ~ 25 样式 的 点 
字体 设置 ，1 (默认 ) 为 正常 字体 ，2 表示 粗 体 ，3 表示 斜体 ，4 表示 粗 斜 体 
点 边框 的 宽度 ，1 (默认 ) 表示 正常 宽度 ， 小 于 1 表示 缩放 ， 大 于 1 表示 放大 


points () 函数 可 以 在 画布 中 添加 点 ， 可 以 设置 的 参数 一 般 包 括 点 样式 (pch) 、 颜 色 (col) 、 大 小 (缩放 倍数 cex) 等 。 


` 使 用 格式 : 


points (x, y = NULL, pch-,cex-,bg- http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15770/0 


其 中 x，y 确 定点 的 位 置 。 


. 实例 ; 点 的 样式 展示 ， 图 形 如 图 4-9 所 示 。 


o pch-0 © pch-5 @ pch=10 m pch-15 9 pch-20 V 
o pch-1 Vy pch-6 xXx pch-11 e pch-16 o pch-21 * 
A pch-2 四 pch-7 Œ pch-12 A pch-17 B pch-22 , 


+ pch-3 Æ% pch-8 6&9 pch-13 € pch-18 © pch=23 . 


X pch-4 ® pch-9 四 pch-14 € pch-19 A pch-24 o 


图 4-9 ”点 的 符号 展示 


EBPS/Text/...) 


pch-25 O pch-O 


pch-* 
pch= 
pch=. 


pch=o 


0 


一 


pch-0 
pch-- 
pch-—- 
pch- 


THES Jn A, 
FAR zz A mg 
plot (1,col-2"white",xlim-c (1,8),ylimec(1,7)) 
symbol-c (Pam, Ta " " "v "o", "ON, "OT n", nl " | ") 
# 创 建 循环 添加 点 
for(i in c(0:34)){ 
x<- (i $/$ 5)*1+1 
y«-6- (1$$5) 
if (i>25){ 
points (x, y, pch=symbol [i-25] ,cex=1 .3) 
text (x+0.5,y+0.1,1abels=paste ("pch=", symbol[i-25]),cex-0.8) 
}else{ 
LE 


(sum (c (21:25)==i)>0)f{ 

points (x, y, pch=i, bg=" red", cex=1 .3) 
} else { 

points (x, y, pch=i, cex=1. 3) 


} 
text (x+0.5,y+0.1,1abels=paste ("pch-2",i),cex-0.8) 
} 


| 实例 : 以 mtcars 数 据 集 为 例 ， 改 变 点 的 样式 后 的 散 点 图 ， 图 形 如 图 4-10 所 示 。 


cyl-as.factor (cyl) 

plot (wt,mpg, col-2"white") 

points (wt,mpg,pch-as.integer (Cyl)-*1,col-as.integer (cyl)-*1) 
legend (5,35,c (4,6,8), pch=2:4,col=2:4,bty="n") 


图 4-10 改变 点 样式 的 散 点 图 


使 用 绘图 参数 也 可 也 改变 点 的 样式 ， 下 面 在 图 形 遂 数 中 直接 添加 点 的 相关 参数 ， 仍 可 得 到 图 4-10。 


plot (wt,mpg,pch-as.integer (cyl)-*1,col-as.integer (cyl)-41) 
legend (5,35,c (4,6,8), pch=2:4,col=2:4,bty="n") 


413 XR 


常用 的 文本 属性 参数 见 表 4-3。 


参数 


表 4-3 常用 文本 属性 参数 


描述 


cex 字体 大 小 ，1 (默认 ) 表示 不 缩放 ， 小 于 1 表示 缩放 ， 大 于 1 表示 放大 
col 字体 颜色 ， 选 项 为 颜色 名 称 ， 整 数 或 十 六 位 制 数 
font 字体 样式 ，1 (默认 ) 为 正常 字体 ，2 表示 粗 体 ，3 表示 斜体 ，4 表示 粗 斜体 


title () 、text () 和 mtext () 函数 可 以 在 打开 的 画布 上 添加 文字 元 素 ，title () 函数 用 来 向 图 形 添加 标题 元 素 ，text () 函数 用 来 向 图 形 中 的 任意 位 置 添加 文本 ，mtext () 函数 用 来 向 图 的 四 条 边 


添加 文本 。 
(1) title () 
.使 用 格式 : 


title (main-NULL, Sub-NULL, xlab-NULL, ylab-NULL, line-NA, outer-FALSI 


E,http://www.hzcourse.com/resource/readi 


=i 


Book?path-/openresources/teach ebook/uncompressed/15770/0E 


BPS/Text/...) 


其 中 main 是 主 标题 ，sSub 是 副标题 ，xlab 是 x 轴 标题 ，ylab 是 y 轴 标题 ， 选 项 都 是 一 个 列表 list (text, font-, col=, cex-, ..) 或 者 简单 的 text，text 是 文本 内 容 。 


. 实例 : 使 用 title O 展示 标题 位 置 ， 图 形 如 图 4-11 所 示 。 


# 图 形 添 加 标题 
plot (c (0:5),col="white",xlab="",ylab="") 


title (main=list (" 主 标 题 ", cex=1 .5)，, sub=list ("副标题 ", cex=1 .2) ，xlab="x 轴 标题 ", ylab="y 轴 标题 ") 


(2) text () BEN 


.使 用 格式 : 


图 4-11 标题 展示 


text (x, y-NULL, labels-seq along (x) , cex=1, col=NULL, font-NULL, http://www .hzcourse.com/resource/readi 


Book?path-/openresources/teach ebook/uncompressed/15770/0E 


-— 


BPS/Text/...) 


其 中 x，y 确 定 标签 位 置 ，labels 是 文本 内 容 。 


- 实例 : 使 用 text O 展示 字体 样式 、 字 体 大 小 ， 图 形 如 图 和 -12 所 示 。 


Font-1) 


# 图 形 添加 文本 

# 字体 

# 绘 制 空 白 画布 

plot (c(0:5),col2"white") 
text(2,4,labels-"font-1:J4E 5 Fk (默认 ) ",1 
text (3, 3, labels="font=2 : 414k F4", font= 

text (4,2, labels-"font-3:4HM&A3&", font=3) 
text (5,1, labels="font=4: 粗 斜体 字体 ", font-4) 

# 大 小 

plot (c(0:6),col2"white",xlimec (1,8)) 

text (2,5,labels-"cex-0.5:3X K0.54z",cex-0.5) 
text (3,4,1abels-"cex-0.8:3X5 K0.842",cex-0.8) 
text (4,3, labels-"cex-1 (默认 ) :正常 大 小 ", Cex=1) 
text (5,2,labels-"cex-1.2:3X5 k1.24&",cex-1.2) 
text (6,1,labels-"cex-1.5:3X5 k1.54&",cex-1.5) 


font=1: 正常 字体 (默认) 
font=2: 粗 体 字 体 
font -3: FHKE 


a) FREIE 


cex20.5: WK 0.5 fei 
cex-0.8: HR 0.8 fi 
cex-] (BRA). 


cex-]l. 


font-4: THX TA FIA 


EN 


正常 大 小 
2: 放大 1.2 fii 
cex-1.5: 放大 1.5 信 


b) 字体 大 小 展示 


图 4-12 


(3) mtext () 函数 


使 用 格式 : 


mtext(text, side = 3, line-0, cex = NA, col = NA, font = NA, http://www.hzcourse.com/resource/readl 


Book?path-/openresources/teach ebook/uncompressed/15770/0l 


EBPS/Text/...) 


其 中 text 与 labels 一 样 是 指 文 字 的 内 容 ，side 取 值 为 整数 1~4， 分 别 把 文本 作 在 图 形 的 下 、 左 、 上 、 右 边 。line 设 置 文本 与 图 形 边缘 的 距离 。 


实例 : mtext (). 展示 文本 位 置 ， 图 形 如 图 4-13 所 示 。 


# 图 形 周 边 添 加 文本 

plot (c (0:5),col="white") 

mtext("side-1: Tij",side-1,line-2); mtext("side-2:Z3ià1" ,side-2,line-2) 
mtext("side-3: 3" ,side-3); mtext ("side=4: #3" ,side-4) 


side=3: 上 边 


ES 
Jg 
Y 
O 
© 
un 


3 4 
side-1: ^31 
Index 


图 4-13 文本 位 置 展示 


- 实例 : 以 mtcars 数 据 集 为 例 ， 将 散 点 图 变 为 文本 字符 ， 图 形 如 图 4-14 所 示 。 


cyl-as.factor (cyl) 

plot (wt,mpg,col-2"white",xlab-"",ylab-"") 

text (wt,mpg, cyl,col-as.integer (cyl)-*1) 

title (main=list ("Miles per Gallon vs. Weight by Cylinder",cex-1.5), 
xlab-"Weight",ylab-"Miles per Gallon") 


N - 
Un © 


Miles per Gallon 
N 
e 


15 


— 
© 


图 4-14 添加 文本 的 散 点 图 


使 用 绘图 参数 也 可 也 添加 文本 ， 图 形 函 数 的 文本 参数 针对 的 是 图 形 文本 ， 标 题 的 文本 属性 参数 名 称 在 原 有 的 基础 上 加 上 ".main”，".sub" 和 ".lab"， 分 别 对 应 主 标题 、 副 标题 和 坐标 轴 标 题 。 下 面 在 图 形 
函数 中 直接 添加 图 形 参 数 ， 同 样 可 得 到 图 4-14。 


plot (wt,mpg,pch-as.character (cyl),col-as.integer (cyl)-41,xlab-"Weight",ylab-"Miles per Gallon ", 
main-"Miles per Gallon vs. Weight by Cylinder",cex.main-1.5) 


4.14 线条 


常用 的 线条 属性 参数 见 表 4-4。 


表 4-4 常用 的 线条 属性 参数 


lty 线条 样式 ，0 表示 不 男 线 ，! 表示 实 线 ，2 表示 虚线 ，3 表示 点 线 
lwd 线条 粗细 ，1 (RA) KREA WE, 7 1 表示 缩放 ， 大 于 1 表示 放大 
在 R 中 可 以 用 函数 绘制 不 同类 别 的 线条 ， 主 要 有 lines () 绘制 曲线 ，abline () HES, segments () 绘制 线段 ，arrows () 在 线段 加 上 箭头 ，grid O 绘制 网 格 线 ， 


(1) lines () 函数 
使 用 lines () 函数 可 以 在 画布 中 添加 曲线 ， 可 以 设置 的 参数 一 般 包括 : 线条 样式 (lty) 、 颜 色 (col) 、 粗 细 (lwd) 等 。 


使 用 格式 : 


Book?path-/openresources/teach ebook/uncompressed/15770/OEBPS/Text/...) 


lines (x,lty-,lwd-,http://www.hzcourse.com/resource/readl 


. 实例 : 展示 线 的 样式 和 线 的 宽度 ， 图 形 如 图 4-15 所 示 。 


LEE 


a) 线 的 样式 


b) 线 的 宽度 


图 4-15 


THER Zo 2X 

# 线 的 样式 

data<-matrix (rep (rep (1:7),10),ncol=10,nrow=7) 

plot (data[1,],type-"l",lty-0, ylimec (1,8),xlim=c(-1,10),axes=F) 

text (0,1, labels-"lty-0") 

for(i in c(2:7))( 
lines (data[i,],lty-i-1) 
text (0,i,labels-paste ("lty-2",i-1)) 


} 

# 线 的 宽度 
data«-matrix (rep (rep (1:6),10),ncol=10,nrow=6) 
plot (data[1,], type-"1",lwd-0.5,ylim-c(1,8),xlim-c(-1,10),axes-F); text(0,1,1abels-"lwd-0.5") 
lines (data[2,], type-"1",1wd-0.8) ; text (0, 2, 1abels-"1wd-0.8") 

lines (data[3,],type-"1",l1wd-1);text (0,3,labels-"lwd-1") 

lines (data[4,], type-"1", 1wd-1.5) ; text (0, 4, 1abels-"lwd-1.5") 

lines (data[5,], " ; text (0,5,1abels-"lwd-2") 

lines (data[6,], j ;text(0,6,1abels-"lwd-4") 


(2) abline () AX% 
使 用 abline () 函数 可 以 在 画布 中 添加 参考 线 ， 可 以 设置 的 参数 一 般 包 括 : 直线 的 截 距 (a) 、 直 线 的 斜率 (b) 、 水 平 线 的 纵 轴 值 (h) 、 垂 直线 的 横 轴 值 (v) S. 


E SUE EN 


abline (a-NUL ib, b=NUL ib, h-NUI ib, V-NUI ib, reg-NUI ib, 
COef-NULL,untf-FALSE, lty-,lwd-,http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15770/OEBPS/Text/...) 


函数 的 参数 见 表 4-5。 


表 4-5 abline () 函数 常用 参数 


参数 描述 
截 距 

RPE 

男 水 平 线 时 的 纵 轴 值 
男 垂 直线 时 的 横 轴 值 


FH PF 2X coef() tE BC As 2C E 
REFERIRE) 的 R 对 象 


-Za 添加 参考 线 ， 图 形 如 图 4-16 所 示 。 


= 


na 


coef 


图 4-16 ”添加 参考 线 


TER n AA R 
# 绘 制 空 白 画 布 


plot (c(0:10),col-2"white") 

# 添 加 水 平 线 

abline (h=c (2, 6, 8)) 

Zn de d AX, 

abline (v-2seq(2,10,2),1ty-2,col-"blue") 
# 添 加 直线 y=2+x 

abline (a=2, b=1) 


(3) segments () 国 数 和 arrows () 国 数 
segments () 国 数 在 两 点 之 间 绘 制 线段 ， 绘 制 对 象 是 两 端点 的 坐标 ，arrows () 函数 在 线段 端点 加 上 箭头 ， 箭 头 与 线段 之 间 的 夹 角 可 调 。 


. segments () 使 用 格式 : 


segments (x0, y0, x1, yl, lty-, lwd-,::-) 


- arrows () 使 用 格式 : 


arrows (x0,y0,x1,yl,angle-, lty=, lwd=,:…) 


其 中 参数 angle 为 箭头 与 线段 之 间 的 夹 角 。 


实例: 添加 线段 和 箭头 ， 图 形 如 图 4-17 所 示 。 


plot (c(0:10),col-2"white") 
segments (2,1,4,8) 

arrows (4,0,7,3,angle-30) 
arrows (4,2,7,5,angle-60) 


图 4-17 添加 线段 和 箭头 


(4) grid () 函数 
grid () 函数 可 以 在 绘图 的 基础 上 添加 网 格 线 。 


使 用 格式 : 


grid(nx = NULL, ny = nx, col =, lty =, lwd =, equilogs = TRUE 


~ 一 


其 中 my 用 于 设置 水 平 网 格 的 数目 ，nx 用 于 设置 垂直 网 格 的 数据 。 设 置 为 NA 时 ， 表 示 不 绘制 相应 的 网 格 线 ，equilogs 是 当 坐 标 取 对 数 之 后 ， 是 依然 使 用 等 距 的 网 格 线 (TRUE) ， 还 是 根据 对 数 函 数 使 用 
不 等 距 的 网 格 线 (FALSE) 。 


实例 : 添加 网 格 线 ， 图 形 如 图 4-18 所 示 。 


plot (c (0:10) ,col="white") #2654 
grid(nx-4,ny-8,lwd-1,lty-2,col-"blue")  # 添 加 网 格 线 


图 4-18 添加 网 格 线 
(5) rug () 函数 
rug () 函数 可 以 在 绘图 的 基础 上 添加 坐标 轴 须 (小 竖 线 ) ， 标 示 出 相应 坐标 轴 上 的 变量 数值 的 具体 位 置 ， 坐 标 轴 须 的 分 布 意味 着 该 变量 的 分 布 。 


使 用 格式 : 


rug (x, ticksize =, side =, col =, lty =, lwd =, http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15770/0EBPS/Text/...) 


其 中 x 为 一 个 向 量 ， 给 出 坐标 轴 须 的 位 置 ; ticksize 为 坐标 轴 须 的 长 度 ; side 为 欲 画 坐标 轴 须 的 位 置 ， 默 认 值 1 为 x 轴 ， 取 值 2 时 为 y 轴 。 


. 实例 : 添加 坐标 轴 须 ， 图 形 如 图 4-19 所 示 。 


density.default(x-x) 


0 2 
N-500 Bandwidth = 0.244 2 


图 4-19 ”添加 坐标 轴 须 


set.seed (123) ## 种 子 

x=rnorm (500) # 生 成 500 个 标准 正 态 分 布 的 数据 
plot (density (x)) # 绘 制 核 密度 曲线 

rug (x ,col-"blue") # 添 加 坐标 轴 须 


: 实例 : 以 mtcars 数 据 集 为 例 ， 查 看 不 同 线 元 素 函 数 的 用 法 ， 画 线条 图 如 图 4-20 所 示 。 


smpg= (mpg-min (mpg) ) / (max (mpg) -min (mpg) ) 
plot (wt, smpg, ylab-"standardized mpg") 

# 添 加 核 密度 曲线 图 

lines (density (wt),col="red") 

# 指 向 密度 曲线 的 箭头 

arrows (1.8,0.05,1.5,0.1,angle-10,cex-0.5) 
text (2, 0.05," 核 密度 曲线 ", cex=0 .6) 


# 添 加 回归 线 

abline (lm(smpg-wt),lty-2,col-"green") 

# 指 向 回归 直线 的 箭头 

arrows (2,0.5,2,0.7,angle-10,cex-0.5) 

text (2,0.45, "回归 线 ", cex=0.6) 

#wt 与 mpg 反 向 线性 相关 ， 添 加 最 大 最 小 值 线 段 表 现 这 种 关系 
segments (min (wt) ,max (smpg) ,max (wt) , min (smpg),1ty=3, col="blue") 
# 指 向 最 大 最 小 值 线段 的 箭头 

arrows (3,0.8,2.5,0.76,angle-10,cex-0.5) 

text (3.3,0.8," 最 大 最 小 值 线 段 ", cex-0.6) 

# 添 加 网 格 线 作 为 背景 

grid (nx=4, ny=5, 1]ty=2, col="grey") 


1 二 一 一 最 大 最 小 值 线段 


op 
O 
= 
Y3 
o 
N 
E 
c 
dr 
c 
e 
49 
un 


图 4-20” 线 元 素 函 数 添 加 的 几 种 线条 图 


使 用 绘图 参数 也 可 也 添加 线条 ， 下 面 在 图 形 函 数 中 直接 添加 图 形 参数 ， 可 得 到 部 分 类 似 图 4-20 的 线条 ， 如 图 4-21 所 示 。 


par (mfrow-c (1,3)) 

plot (density (wt) , col2" red") FEA EIA Z B 2X 

plot (wt, fitted (1m (smpg~wt) ) ,type="1", 1ty=2, col="green") ## 绘 制 回归 线 

plot (seq (min (wt) , max (wt) , Tength-100) , seq (max (smpg) , min (smpg) , Length=100), 
type-"l",lty-3,col-"blue")  ## 绘 制 最 大 、 最 小 值 线 


density.default(x—wt) 


Co 一 一 
OO |j 


d 
ON 


fifted(Im(smpg-wt)) 
seq(max(smpg),min(smpg),length- 100) 


> 
c 


12 3456 2 3 4 5 
N=32 Bandwidth-0.3455 seq(min(wt), max(wt), length-100) 


图 4-21 绘图 参数 画 的 几 种 线条 


4.1.5 ”图 例 


当 图 形 中 包含 的 数据 不 止 一 组 时 ， 图 例 可 以 帮助 辨别 出 每 个 条 形 、 房 形 区 域 或 折线 各 代表 哪 一 类 数据 。 可 以 使 用 legend () 函数 来 在 画布 中 添加 图 例 。 


E 使 用 格式 : 


legend (x, y=NULL, legend, col=par ("col"),lty,pch,bty-"o",bg-par ("bg"),ncol-1, 
horiz-FALSE, xpd- FALSE,title-NULL,:-:) 


BU TCI SETZE 
表 4-6 legend O 函数 常用 参数 
参数 描述 
设置 图 例 的 位 置 (默认 左上 角 位 置 )， 除 使 用 x 和 y 人 参数 外 ， 也 可 以 使 用 字符 "bottomright", "bottom", 
"bottomleft", "left", "topleft", "top", "topright"," right”、 center" 
legend 一 个 字符 回 量 ， 表 示 图 例 中 的 文字 
horiz 图 例 的 排列 方式 ， 为 FALSE (默认 ) 时 ， 图 例 垂直 排列 ， 为 TRUE 时 ， 图 例 水 平 排列 
ncol 图 例 的 列 数目 ， 当 horiz=TRUE 时 ， 该 项 无 意义 
图 例 中 点 的 样式 ， 可 取 0 一 23， 其 中 0 一 14 为 空心 点 ，15 一 25 为 实心 点 ; 也 可 以 直接 通过 pch="+" 的 
方式 定义 点 的 样式 
lty 图 例 中 线 的 样式 ，0 表示 不 夯 线 ，1 表示 实 线 ，2 表示 虚线 ，3 表示 点 线 
col 图 例 中 点 和 线 的 颜色 ， 令 col 等 于 对 应 颜色 名 称 即 可 
bg 图 例 的 背景 颜色 ,， 令 bg 等 于 对 应 颜色 名 称 即 可 。 在 bty 参数 为 "n" 时 无 效 
bty 设置 图 例 框 的 样式 ， 取 "o" (默认 ) 时 表示 显示 边框 ， 取 "n" 时 表示 无 边框 
xpd 是 否 在 作 图 区 域外 作 图 ， 默 认为 FALSE ， 即 不 允许 在 作 图 区 域外 作 图 
title 设 定 图 例 的 标题 


pch 


- 实例 : 使 用 legend () 展示 标题 位 置 ， 图 形 如 图 4-22 所 示 。 


local-c ("bottomright", "bottom", bottomleft","left","topleft","top","topright","right","center") 
par (mar-c (4,2,4,2) , pty-'m') 
plot (c(0:10),col-2"white") 
legend(3,8,"BE f| (3,8) ") 
legend (1,13,"E49]/& (11,11) ", xpd-T) 
for(i in 1:9 
legend (1ocal[i],paste ("图 例 在 ", local[i])) 
} 


— 


图 例 在 CIL, 11) 


THE topleft 图 例 在 top 图 例 在 topright 
图 例 在 (3，8) 
图 例 在 center 图 例 在 right 


图 例 在 bottom 图 例 在 bottomright 
10 


图 4-22 ”图 例 位 置 展 示 


4.1.6 ”坐标 轴 


坐标 轴 的 设置 主要 包括 主 坐 标 轴 (x 轴 和 y 轴 ) 的 范围 和 刻度 标记 ， 以 及 副 坐 标 ( 右 侧 的 纵 坐 标 ) 的 相关 属性 等 。 可 以 使 用 axis () 函数 来 创建 自 定义 的 坐标 轴 ， 而 非 使 用 R 中 的 默认 坐标 轴 。 


使 用 格式 : 


axis (side, at-NULL, labels-TRUE, tick-TRUI 


E,lty-"solid",lwd-1,col-NULL, col.ticks-NULL, http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15770/ 


函数 的 参数 见 表 4- 7。 


表 4-7 axis () 的 常用 参数 


参数 描述 
side 坐标 轴 所 在 的 边 ，1、2、3 、4 分 别 表示 下 、 左 、 上 、 丰 
at 通过 回 量 来 设置 坐标 轴 内 各 刻度 标记 的 位 置 at 参数 要 与 labels 回 量 一 一 对 应 
labels 一 个 向 量 字 符 ， 表 示 坐 标 轴 各 刻度 的 名 称 (刻度 标记 )，labels 参数 要 与 at 向 量 一 一 对 应 


(组 ) 
参数 描述 
刻度 标记 的 字体 ，1 (默认 ) 为 正常 字体 ，2 表示 粗 体 ，3 表示 和 斜体，4 表示 粗 斜体 
cex.axis 刻度 标记 的 大 小 ，1 (默认 ) 表示 正常 大 小 ， 小 于 1 表示 缩放 ， 大 于 1 表示 放大 
刻度 标记 的 颜色 ， 对 应 颜色 名 称 即 可 
设置 是 否 画 出 坐标 轴 ， 为 TRUE (默认 ) BE, demit HH Abl. JJ FALSE 时 不 画 出 ， 此 时 并 不 影响 刻 
度 标记 labels 的 展示 
lty 坐标 轴 的 样式 ，tick=TRUE 时 有 效 ，0 表示 不 画 线 ，! 表示 实 线 ，2 表示 虚线 ，3 表示 点 线 
lwd 坐标 轴 的 宽度 ，tick=TRUE 时 有 效 ，!1( 默 认 ) REA 98 E, NF 1 表示 缩放 ， 大 于 1 表示 放大 
col 坐标 轴 的 颜色 。tick=TRUE 时 有 效 ， 令 col 等 于 对 应 颜色 名 称 即 可 
坐标 轴 刻 度 线 的 颜色 ， 令 col.ticks 等 于 对 应 颜色 名 称 即 可 。 
col.ticks 注意 : col.ticks 是 指 与 坐标 轴 垂 直 的 小 刻度 线 的 颜色 。col 表示 设置 了 除 刻度 标记 (labels) 以 外 的 部 分 
颜色 ， 包 括 colticks 
pos 坐标 轴线 绘制 位 置 的 坐标 ， 与 另 一 条 坐标 轴 相 交 位 置 的 值 
1as 标签 是 否 平 行 于 坐标 轴 ， 人 参数 为 0 时 平行 于 坐标 轴 ， 为 2 时 垂直 于 坐标 轴 
刻度 线 的 长 度 ， 以 相对 于 绘图 区 域 大 小 的 分 数 表 示 ， 负 值 表示 在 图 形 外 侧 ， 正 值 表 示 在 图 形 内 侧 ，0 
表示 禁用 刻度 ，1 表示 绘制 网 格 线 ， 默 认 什 为 -0.01 


font.axis 


col.axis 


tick 


tck 


“ 实例 : 使 用 axis () 展示 坐标 轴 ， 图 形 如 图 4-23 所 示 。 


THER Zo 28 3p dh 
plot (c(1:12),col-2"white",xaxt-"n",yaxt-"n",ann = FALSE) 
axis (1,at-1:12,col.axis-"red",labels-c("Jan","Feb","Mar","Apr","May","Jun","Jul", "Aug","Sep","Oct","Nov","Dec")) 


( 

axis (2,at-seq(1,12,1length-10),col.axis-"red",labels-1:10,1as-2) 

axis (3,at-seq(1,12,1length-7),col.axis-"blue",cex.axis-0.7,tck--.01, 
中 abe] S-c ("Mon", "Tues", "Wed", "DEO. "Epi"; "Sat", "Sun") ) 

axis (4,at-seq(1,12,length-10),col.axis-"blue",cex.axis-0.7,tck--.01, 
labels-round (seq(0,1,1ength-10),1),1as-2) 


0 
9 
8 
7 
6 
5 
4 
3 
2 
l 


Jan Feb Mar Apr May Jun Jul Aug 


图 4-23 ”添加 坐标 轴 


绘图 函数 中 设置 坐标 轴 展 示 和 学 围 的 参数 见 表 4-8。 


表 4-8 ”绘图 函数 中 设置 坐标 轴 参 数 


参数 描述 
axes 1218 4X, axes- TRUE (默认 ) 时 显示 坐标 轴 ，axes=FALSE HT, Ez ^ by 


"- 坐标 轴 样 式 ， 默 认 值 为 "s"， 表 示 x/y 轴 以 标准 样式 显示 ， 取 值 "nm" 表示 隐藏 xy 轴 


XaXS 坐标 轴 计 算 方 式 ， 默 认 值 "r" 表示 把 原始 数据 的 范围 回 外 扩大 4%， 作 为 xy 轴 范 围 ， 取 值 "I" 表示 x/y 
yaxs 轴 范 围 为 原始 数据 范围 
xlim 


vini 坐标 轴 范 围 ， 设 置 为 c(from,to)，from 是 x/y Ah) Er AER. to 是 尾 坐 标 
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在 R 中 常用 函数 par () layout () 组 合 多 幅 图 形 为 一 幅 总 括 图 形 。 
(1) par () 函数 
par () 函数 可 以 设置 大 多 数 绘图 全 局 参数 ， 该 函数 有 丰富 的 在 线 参考 信息 ， 可 通过 ?par 或 help (par) 获得 。 常 用 图 形 组 合 相关 的 参数 设置 见 表 4-9。 
表 4-9 par O 函数 图 形 组 合 参数 
参数 描述 
页 面 摆 放 ， 把 一 个 页 面 平 分 成 柬 份 ， 表 示 行 数 和 列 数 的 二 维 回 量 ，mfrow 逐 行 从 左 到 右 作 图 ， 

mfcol 逐 列 从 上 到 下 作 图 
mai/mar 图 形 边 距 mai (英寸 边 距 ) 和 mar ( 行 边 距 )。 四 个 边 距 的 顺序 是 下 、 左 、 上 、 石 
mgp 坐标 轴 位 置 ， 三 维 数 值 回 量 ， 依 次 为 标题 、 刻 度 标 签 和 刻度 的 位 置 
oma 外 边界 宽度 ; 类 似 于 mar， 默 认为 c(0，0，0， 0) 


mfrow /mfcol 


: 实例 : 使 用 par () 展示 各 图 形 组 合 参数 用 法 ， 效 果 如 图 4-24 所 示 。 


# 将 图 形 按 2 行 3 列 摆 放 
mfrowl=par (mfrow=c (2, 3)) 
for(i in 1:6){ 
plot (c(1:i),main=paste ("I'm image:",i)) 


一 


} 

# 改 变 图 形 边 距 

marl=par (mar=c (4, 5,2,3)) 
for(i in 1:6){ 


plot (c(1:i),main-paste ("I'm image:",i)) 
) 
par (marl) HEX Rpar () 函数 mar 参 数 的 设置 mar1l 
# 改 变 外 边界 宽度 


omal-par (oma-c (4,5,2,3)) 
for(i in 1:6){ 


plot (c(1:i),main-paste ("I'm image:",i)) 
par (omal) THX IR par () 函数 oma 参 数 的 设置 cmal 
# 改 变 坐 标 轴 位 置 


mgpl=par (mgp=c (1,2,3)) 
for (i in 1:6)f{ 


plot (c(1:i),main-paste ("I'm image:",i)) 
} 
par (mgp1) ## 去 除 Par () 函数 mgp 参 数 的 设置 mgp1l 
par (mfrowl) HEX IRpar () 函数 mfrow 参 数 的 设置 mnfrow1l 


I'm image:l I'm image:2 |'m image:3 


0.8 1.0 1.2 1.4 L.O 1.2 1.4 1.6 1.8 2.0 1.5 20 2.5 3.0 
Index Index Index 


I'm image:4 I'm image:5 |'m image:6 


1.01.52.02.53.03.5 4.0 
Index 


I'm image: | lm image:2 


| / 1.0 
0.6 0.8 LO 12 14 1.0 1.2 1.4 1.6 1.8 2.0 L.O 1.5 2.0 2.5 3.0 
Index Index Index 
l'm image:4 I'm image:5 l'm image:6 


b) mar 参数 设置 图 形 边 距 


图 4-24 


Im image: I'm image:2 I'm image:3 
214 1.8 
—10 二 1.4 
“0.6 "10 | 
0.6 0.8 1.0 1.2 1.4 1.01.21.4 1.61.8 2.0 1 0 1.5 2.0 2.5 3.0 


Index Index Index 


I'm image:4 |'m image:5 I'm image:6 


c) oma 参数 设置 外 边界 宽度 


lm image:1 


Index i Index | Index 
06 0.8 LO 12 1. 1.0 1.2 14 1.6 1.8 2.0 15 20 2.5 30 


| | T T | l 


I'm image:5 l'm image:6 


Index 
1.01.5 2.02.5 3.0 3.5 4.0 


| T T | T j l 


d) mgp 2 3 fe h A5 tr Ai E 
图 4-24 — (H) 
(2) layout () 函数 
layout () 函数 可 以 不 均等 地 分 隔 页 面 ， 它 有 4 个 参数 mat、widths、heights 和 respect。 


` 使 用 格式 : 


layout (mat,widths-rep (1,ncol (mat) ) , heights-rep (1, nrow (mat) ) , respect-FALSE 


— 


RHrB&dumatzi— Be, Tet r l'EESIBSIEEREUS ERRE, EEFT n, KFARA TRBSIRERTBIS), THISSNSERUESA GE REX. widthsfüheightsftedt f$: 758 
形 作 图 区 域 长 和 宽 的 比例 ; respect 控 制 各 图 形 内 的 横 纵 轴 刻 度 长 度 的 比例 尺 是 否 一 样 。 


: 实例 : layout () 函数 版 面 摆 放 ， 图 形 如 图 4-25 所 示 。 


mat«-matrix(c(1,1,2,3,3,4,4,5,5,6), nrow = 2, byrow = TRUE) 
layout (mat) 

for(i in 1:6){ 

plot (c(1:i),main-paste ("I'm image:",i)) 


} 


Im image: Im image:2 Im image:3 


0.6 0.8 1.0 1.2 1.4 1.0 1.4 1.8 29 3.0 
Index Index 


Im image:4 I'm image:5 I'm image:6 
4.0 : : 


3.0 
$2.0 
1.0 + 


1.0 2.5 4.0 
Index 


图 4-25 layout () 函数 版 面 摆 放 的 展示 图 
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1. 输 出 到 屏幕 


R 语 言 提供 将 图 片 输出 到 屏幕 的 函数 windows () 和 X11 () ， 其 中 windows () 用 于 Windows 系 统 ，X11 () 用 UNIX 系 统 的 X11 桌 面 系统 。 执 行 以 下 代码 即 可 得 到 图 形 设备 界面 ， 选 择 “文件 ”菜单 
下 的 “另存 为 ”可 将 图 片 以 不 同 的 格式 输出 到 屏幕 。 


windows () # 打 开 图 形 设 备 界 面 
plot (wt,mpg) 
XI # 打 开 图 形 设备 界面 
plot (wt,mpg) 
2. 输 出 到 文件 


输出 到 文件 的 方式 有 两 种 : 使 用 代码 将 图 形 输出 到 文件 和 通过 菜单 命令 。 


实例 : 使 用 pdf O 函数 将 图 形 保存 为 pdf 格式 。 


相似 代码 可 以 用 于 函数 win.metafile () 、bmp () 、tiff () 、svg () 、postscript () . png () 、jpeg O 等 保存 图 形 。 


在 R 中 使 用 菜单 命令 的 方法 是 选择 图 形 设备 界面 ， 单 击 “ 文 件 ” 菜 单 下 的 “另存 为 ”可 将 图 片 文件 以 不 同 的 格式 保存 。 在 Rstudio 中 使 用 菜单 命令 的 方法 是 单 击 “Export” 下 的 “Save as PDF” 将 图 片 
保存 为 pdf 格式 ， 单 击 “Save as Image” 选择 将 图 片 保存 为 其 他 格式 。 
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分 析 数 据 首先 要 做 的 事情 就 是 观察 它 。 对 于 每 个 变量 ， 哪 些 值 是 最 常见 的 ” 值 域 是 大 是 小 ”是否 有 不 寻常 的 观测 ”对 于 多 个 变量 ， 它 们 的 关系 如 何 ” 是 否 符合 模型 假设 ”R 中 提供 了 丰富 的 数据 可 视 化 函 
数 来 展示 数据 ， 常 见 的 见 表 4-10。 


表 4-10 常见 的 图 形 函 数 


函数 
sm.density.compare 分 布 
boxplot Art 
vioplo Art 
barplo Art 
dotchart Cleveland 点 图 分 布 
pie rt 
plot 根据 作 图 对 象 而 异 ， 最 简单 的 是 散 点 图 关系 (对 散 点 图 )， 图 形 不 同 ， 功 能 也 不 同 
pairs BUS PER PE 关系 


corrgram 相关 图 关系 


qqplot 


QQ 图 假设 检验 


mosaicplot LE ve [*] 假设 检验 


sunflowerplot 突出 特征 
contour RX 
heatmap 热 图 R% 


(1) hist () 函数 


hist () 函数 可 用 于 绘制 直方 图 ， 显 示 连 续 数据 的 分 布 情形 。 直 方 图 通过 在 x 轴 上 将 值 域 分 割 为 一 定数 量 的 组 ， 在 y 轴 上 显示 相应 值 的 频数 。 


.使 用 格式 : 


功能 


hist (x,breaks- 


, £req-,probability-, http: / /www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15770/0l 


hist () 函数 常用 参数 见 表 4-11。 


参数 


参数 
breaks 


freq 


表 4-11 his () 函数 常用 参数 


描述 
ZA [HI] Tk 


描述 
分 段 区 间 ， 取 值 为 一 个 回 量 (各 区 间 端 点 )、 一 个 数字 ( 拆 分 为 多 少 段 )、 
的 算法 名 称 ) 或 者 一 个 函数 (划分 区 间 个 数 的 方法 ) 
是 否 以 频数 作 图 ， 默 认为 TRUE， 表示 男 出 频数 直方 图 ， 取 值 为 FALSE 


probability 是 否 以 概率 密度 作 图 ,与 freq 互 斥 ， 默 认为 FALSE 


以 mtcars 为 例 ， 生 成 的 直方 图 ， 图 形 如 图 4-26 所 示 。 


EBPS/Text/...) 


一 个 字符 串 〈 计 算 划 分 区 间 


时 ， 画 频率 直方 图 


[9] 
4 
[e 
K 


mfrow=c (2, 3) ,mar=c (4, 4,2,0.5),mgp=c (2,0.5,0)) 


hist (wt,main-"freq-TRUE") # 默 认 的 频数 直方 图 (图 4-26a) 


t (wt,breaks-5,main-"breaks-5") # 减 小 区 间 段 数 的 直方 图 (图 4-26b) 
t(wt,col-"light blue",main-"colored") # 给 直方 图 的 柱 形 添 加 颜色 (图 4-26c) 


SE, main-"freq-FALSE") ## 概 率 密度 直方 图 (图 4-26d) 


wW 
t (wt, freq-FA 
wW 


t,breaks-40,main-"breaks-40") # 增 大 区 间 段 数 的 直方 图 (图 4-26e) 
# 在 直方 图 上 添加 密度 曲线 和 正 态 分 布 概率 密度 曲线 (图 4-26f 


— 


hist (wt, freq-FAI 


SE,main-"with density curve and normal curve") 


lines (density (w 


par (op) 


t),col-"blue") 


lines (density (rnorm(1e-6,mean (wt) , sd (wt) )) , 1t y-2, col-"red") 


freq- TRUE 


一 一 
un 


p 
© 


Frequency 
O N A % 
Frequency 


2 3 4 5 
wt 


) 频数 和 直方 图 


freq=FALSE 


Frequency 


2 3 
d) 概率 密 


4 5 
wt 


JE HOT 


(2) sm.density.compare () 


sm 包 中 的 sm.density.compare () 了 水 数 用 于 绘制 核 密 度 图 ， 核 密度 图 用 一 


前 面 已 经 使 用 plot () 和 lines () 函数 绘制 或 者 添加 核 密度 图 ， 它 们 都 要 使 用 国 数 density () , 


册 


密度 曲线 。 


.使 用 格式 : 


sm.density.compare (x, group,http://www.hzcourse.com/resource/read = ig E ix 


breaks-5 colored 


Frequency 
O N AÀA A c 


2 3 4 5 
wt 


) 给 特 方 图 添加 颜色 


with density curve and normal cur 


b) 减 小 区 间 段 数 
breaks=40 


2 3 d 
wt 


e) 增 大 区 间 段 数 曲线 和 正 态 分 布 概率 


密度 曲线 


£) 添加 密度 


图 4-20 


条 密度 曲线 而 不 是 柱状 来 展示 连续 型 变量 的 分 布 。 相 比 直方 图 ， 密 度 图 的 一 个 优势 是 可 以 堆放 ， 可 用 于 比较 组 间 差 异 。 


一 个 语句 只 能 画 一 条 密度 曲线 ， 而 sm.density.compare () 函数 不 必 通 过 density () , 


BPS/Text/ 


Book?path-/openresources/teach ebook/uncompressed/15770/0l 


) 


library (sm) e, 


其 中 x 是 数值 向 量 ，group 是 分 组 向 量 ， 是 因子 型 数据 。 
:以 mtcats 为 例 ， 生 成 的 核 密 度 图 如 图 4-27 所 示 。 
# 加 载 sm 包 
sm.density.compare (wt, factor (cyl)) # 绘 制 核 密 度 
legend ("topright",levels (factor (cyl)),lty-1:3,col-2:4,bty-"n") 


直接 堆放 多 条 


图 4-27” 按 汽 饶 数 分 组 的 各 车 型 车 重 的 核 密度 图 
(3) boxplot () 函数 


boxplot () 函数 用 于 绘制 箱 型 图 ， 箱 线 图 也 是 常见 的 摘 述 连续 型 变量 分 布 的 图 形 。 它 绘制 了 连续 型 变量 的 五 数 总 括 ， 即 最 小 值 、 下 四 分 位 数 (第 25 百 分 位 数 ) 、 中 位 数 (第 50 百 分 位 数 ) 、 上 四 分 位 
数 (第 75 百 分 位 数 ) 以 及 最 大 值 。 箱 线 图 能 够 显示 出 可 能 为 离 群 点 (范围 +1.5*1QR 以 外 的 值 ，IQR 表 示 四 分 位 距 ， 即 上 四 分 位 数 与 下 四 分 位 数 的 差 值 ) 的 观测 。 此 外 还 用 来 可 视 化 组 间 差 异 ， 且 比 
sm.density.compare () 函数 更 常用 。 


` 单独 的 箱 线 图 的 使 用 格式 : 


boxplot (x,:-,range-,width-, varwidth=, notch-,names-,horizontal-, add-FALSE,::-) 


- 组 间 比 较 的 箱 线 图 的 使 用 格式 : 


boxplot(formula, data = NULL, http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15770/OEBPS/Text/..., subset, na.action = NULL) 


boxplot () 函数 的 党 用 参数 见 表 4-12。 


表 4-12 boxplot O 函数 常用 参数 


参数 描述 
Xx, = 一 系列 数值 回 量 ， 依 次 作出 箱 线 图 


(3E) 

参数 Hi 
formula -个 公式 
data 提供 数据 的 数据 框 

个 延伸 倍数 ， 箱 线 图 延伸 到 离 箱 子 两 请 range *IQR， 超 过 这 个 范围 的 数据 点 就 被 视 作 离 群 点 ， 在 图 
中 直接 以 点 的 形式 表示 出 来 
width 箱子 的 宽度 
varwidth 箱子 的 宽度 与 样本 量 的 平方 根 是 否 成 比例 ， 默 认为 FALSE, KREA, Æ TRUE, Wake i 
notch 设置 图 形 是 否 审 刻 槽 ， 默 认为 FALSE， 如 果 改 为 TRUE ， 则 绘制 矩阵 样本 x 的 带 刻 覃 的 凹 盒 图 
horizontal 改变 图 形 的 方向 ， 默 认为 FALSE AME; TURE 为 水 平 画图 
add 是 否 将 箱 线 图 添加 到 现 有 图 形 上 ， 默 认为 FALSE， 不 添加 ; TURE 为 添加 


5E 


range 


以 mtcats 为 例 ， 绘 制 的 箱 线 图 ， 图 形 见 图 4-28。 


set.seed(1234) 


normal-rnorm(100,mean (wt) ,sd (wt) ) # 生 成 100 个 正 态 分 布 数据 

op=par (mfrow=c (1, 3)) 

boxplot (list (wt,normal),xaxt-"n") 3 22-48] £8 2X E 
axis(1,at-1:2,1abels-c("wt"," normal"))  # 添 加 坐标 轴 
rug(wt,side-2,col-2); rug(normal,side-4,col-3)  # 添 加 坐标 轴 须 

legend ("bottomleft",c("wt","normal"),lty-1,col-2:3,bty-"n") # 添 加 图 例 


boxplot (list (wt,normal),xaxt-"n",varwidth-TRUE) 
rug (wt,side-2,col-2); rug (normal,side-4,col-3) 

axis (1,at-1:2,1abels-c ("wt","normal")) 

legend ("bottomleft",c("wt","normal"),lty-1,col-2:3,bty-"n") 
boxplot (wt-cyl) 
rug(wt[cyl--4],side-2,col-2); rug(wt[cyl--6],side-4,col-3); rug(wt[cyl--8],side-2,col-4) 
legend ("topleft",c("4","6","8"),]ty-1,col-2:4,bty-"n") 

par (op) 


图 4-28 箱 型 图 


(4) vioplot () 函数 
vioplot 包 中 的 vioplot () 函数 用 于 绘制 小 提琴 图 ， 小 提琴 图 是 核 密度 图 与 箱 线 图 的 结合 ， 本 质 是 利用 密度 值 生成 的 多 边 形 ， 但 该 多 边 形 还 沿 着 一 条 直线 作 了 另 一 半 对 称 的 “镜像 ”， 这 样 两 个 左右 或 上 
下 对 称 的 多 边 形 拼 起 来 就 形成 了 小 提琴 图 的 主体 部 分 ， 最 后 一 个 箱 线 图 也 会 被 添加 在 小 提琴 的 中 轴线 上 。 


使 用 格式 : 


Book?path-/openresources/teach ebook/uncompressed/15770/OEBPS/Text/...,range-,horizontal-,border-"black", rectCol-"black", colMed=" 


vioplot (x,http://www.hzcourse.com/resource/readi 


:以 mtcats 为 例 ， 绘 制 的 小 提琴 图 ， 如 图 4-29 所 示 。 


# 页 面 分 割 挤 1/2， 为 与 箱 线 图 和 核 密度 图 对 比 而 作 ， 小 提琴 图 只 需要 第 二 个 语句 即 可 

par (fig=c (0,1,0.5,1)) 

# 绘 制 小 提琴 图 

vioplot (wt[cyl--4],wt[cyl-2-6],wt[cyl--8],border-"black",col-2"light green",rectCol-"blue",horizontal-TRUE 

$2: 315 $:1/27 48 

par(fig2c(0,1,0,.5),mar-c(0,2,0,0.5) ,new-TRUE) 

3125] 48 2X ES] 

boxplot (wt-cyl,horizontal-TRUE,pars-list (boxwex-0.1),border-"blue") 

T4E 48 2E] E dw SERI 

par (fig2c(0,0.53,0.1,0.2) , new-TRUE) 
t (density (wt[cyl--4],bw-0.3),xaxt-"n", yaxt-2"n", ann-FALSE, bt y2"n") 

par (fig2c(0.26,0.56,0.25,0.35) , new-TRUE) 

plot (density (wt[cyl--26],bw-0.3),xaxt-"n", yaxt-2"n",ann-FALSE, bty-"n") 

par(fig2c(0.33,1,0.4,0.5) , new-TRUE 

plot (density (wt[cyl--28],bw-0.5),xaxt-"n", yaxt-"n",ann-FALSE, bty-"n") 


— 


— 


图 4-29 ” 箱 线 图 与 核 密度 的 图 组 合 及 小 提琴 图 


(5) barplot () 函数 
barplot () 函数 用 于 绘制 条 形 图 ， 展 示 类 别 数据 的 分 布 。 


使 用 格式 : 


barplot(height, beside =, horiz =, , http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15770/OEBPS/Text/...) 


其 中 height 是 一 个 向 量 或 者 矩阵 ;beside 默 认 值 为 FALSE， 每 一 列 都 将 给 出 堆砌 的 “ 子 条 ”高 度 ， 若 beside=TRUE， 则 每 一 列 都 表示 一 个 分 组 并 列 ; horiz 是 逻辑 值 ， 默 认为 FALSE， 改 成 TRUE， 图 形 
变 为 横向 条 形 图 。 


实例: 以 mtcats 为 例 ， 绘 制 条 形 图 ， 如 图 4-30 所 示 。 


bardata-table (cyl, carb) # 得 到 表格 数据 
pal=RColorBrewer: :brewer.pal (3, "Set1") # 颜 色调 配 
op=par (mfrow-c (2,2) ,mar=c (3,3,3,2),mgp=c (1.5,0.5,0)) 


barplot (barqata col-pal,beside-TRUE, xlab-"carb") # 分 组 条 形 图 

legend ("topright",c("4","6","8"),pch=15,col=pal,bty="n") 

barplot (bardata, col=pal, xlab="carb") # 上 默认 堆砌 条 形 图 

legend ("topright",c("4","6","8"),pch=15,col=pal,bty="n") 

barplot (bardata, col-pal,beside-TRUE,horiz-TRUE, ylab="carb") # 水 平 放置 的 条 形 图 
legend(5.3,26,c("4","6","8") , pch-15, col-pal,bty-"n") 

barplot (bardata, col-pal,beside-TRUE, ylimec (0, 7), xlab-"carb") 

legend ("topright",c("4","6","8"),pch-15,col-pal,bty-"n") 


# 显 示 数 值 
text (labels-as.vector (bardata) ,cex=0.7,x=c(1.5:23.5) [1:23%%$4>0], y-as.vector (bardata)+0.5) 
par (op) 
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图 4-30 ”条 形 图 
(6) dotchart () 国 数 
dotchart () 函数 用 于 绘制 Cleveland 点 图 ， 点 图 和 条 形 图 的 功能 非常 类 似 ， 条 形 图 通过 条 的 长 度 表示 数值 大 小 ， 点 图 通过 点 的 位 置 表示 数值 大 小 ， 二 者 几乎 可 以 在 任何 情况 下 互 换 。 


.使 用 格式 : 


dotchart(x, labels = NULL,http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15770/OEBPS/Text/...) 


其 中 x 与 条 形 图 的 height 参 数 相同 ， 为 一 个 数值 向 量 或 者 和 矩阵; labels 为 数据 的 标签 。 


- SUP): 以 mtcats 为 例 ， 绘 制 点 图 ， 如 图 4-31 所 示 。 


dotchart (bardata,bg-pal) 


图 4-31 Cleveland 点 图 


(7) pie () 函数 
pie () 函数 可 用 于 绘制 饼 图 ， 饼 图 的 原理 很 简单 ， 每 一 个 扇形 的 角度 与 相应 数据 的 数值 大 小 成 比例 。 


.使 用 格式 : 


pie(x, labels = names (x), http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15770/0l 


参数 x 为 一 个 数值 向 量 ，labels 为 标签 。 


实例 : 以 mtcats 为 例 ， 绘 制 饼 图 ， 如 图 4-32 所 示 。 


percent-as.vector (table (cyl))/sum(as.vector(table(cyl)))*100 #i 计 算 百 分 比 
# 


pie (table (cyl),labels-paste (c("4","6","8"),"Cylinders:",percent, "$")) 画 饼 图 


EBPS/Text/... 


4 cylinders:34.375% 


0 cylinders:2 1.875% 


8 cylinders:43.75% 


图 4-32 ”人 饼 图 
(8) plot () RZ% 
过 前 面 的 学 习 ， 我 们 对 使 用 plot () 函数 作 散 点 图 已 经 非常 熟悉 ， 但 plot () 函数 并 不 只 是 画 散 点 图 ， 它 是 一 个 泛 型 函数 。 根 据 泛 型 函数 的 工作 原理 ， 传 给 plot () 的 第 一 个 参数 是 何 种 类 ， 则 调用 何 


种 函数 进行 作 图 。 即 plot () 的 第 一 个 参数 就 是 作 图 对 象 参数 ， 它 决定 绘制 哪 种 图 形 及 作 图 方法 。 其 常用 图 形 参数 如 表 4-13 所 示 。 


表 4-13 plot () 函数 常用 图 形 参 数 


参数 描述 


t 图 形 类 型 ， 取 值 "p" 为 点 ，"I" 为 线 ，"b" 为 点 和 连接 线 ，"o" 为 点 覆盖 在 线 上 ，"c" 为 擦 掉 点 的 线 ， 
Lia "h" 为 从 点 到 x 轴 的 垂直 线 ，"s" 为 阶梯 图 (水 平 起 步 )，"S" 为 阶梯 图 (垂直 起 步 )，"n" 为 不 显示 


bg 点 的 背景 色 
ann 是 否 显 示 默 认 的 标记 ， 如 坐标 轴 标 题 和 图 标题 
frame.plot 是 否 给 图 形 加 框 


: 实例 : 用 methods () 查 plot () 的 作 图 方法 。 


> methods ("plot") 
[1] plot.acf* plot.data.frame* plot.decomposed.ts* 
[4] plot.default plot.dendrogram* plot.density* 
[7] plot.ecdf plot.factor* plot.formula* 
[10] plot.function piot.hclust* plot.histogram* 
[13] plot.HoltWinters* . plot.isoreg* piot.lm* 
[16] plot.medpolish* plot.mlm* plot.ppr* 
[19] plot.prcomp* plot.princomp* plot.profile.nls* 
[22] plot.raster* plot.spec* plot.stepfun 
[25] plot.stl* piot.table* piot.ts 
[28] plot.tskernel* plot.TukeyHSD* 
Non-visible functions are asterisked 


这 些 函 数 都 是 以 plot.* 的 形式 定义 的 ， 其 中 * 是 类 的 名 称 。 


- 实例 ; 以 mtcars 数 据 集 为 例 ， 用 plot O 函数 画 几 种 图 形 ， 效 果 见 下 列 图 形 。 


density.default(x-wt) 
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b) 马赛 克 图 
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c) 回归 诊断 图 


图 4-33 


16 18 20 22 


Lot (density (wt), type-"1");class (density (wt)) # 第 一 个 参数 density 类 ， 画 核 密度 曲线 
L] "density" 
lot (table (cyl, vs)) ;class (table (cyl,vs)) # 第 一 个 参数 上 able 类 ， 画 马赛 克 图 
L] "table" 
pr-par (mfrow-c (2,3),mar-c(4,4,2,4)) 
for(i in 1:6){ 
plot(lm(mpg-wt),i) 塌 第 一 个 参数 Im 类， 画 回 归 诊 断 图 


pi 
p 


VV 于 VV 


par (opr) ;class (lm (mpg~wt)) 
] Tm" 
plot (mtcars[,c(1,3:7)]);class (mtcars[,c(1,3:7)]) # 第 一 个 参数 qata.frame 类 ， 画 散 点 图 算 阵 
L] "data.frame" 


一 些 图 形 元 素 的 参数 已 经 介绍 过 ， 这 里 只 对 参数 type 的 作用 进行 说 明 。 


- 实例 : 绘制 plot () 函数 的 不 同 图 形 类 型 ， 如 图 4-34 所 示 。 


x«-seq (from-0,to-2*pi,length-10) # 取 10 个 x 值 
y-sin (x) # 计算 相对 应 的 y 值 
type-c "p", "pe, "np". not, nem, "npn", "ns", "o", "n" ) # 图 形 类 型 向 量 
op=par (mfrow=c (3,3) ,mar=c (4,4,1,1)) 
for(i in 1:9)f{ 
plot (x,y,type-type[i] ,main-paste ("type:",type[i])) 


} 
par (op) 


图 4-34 plot () 函数 图 形 类 型 展示 图 


(9) pairs () 函数 
pairs () 函数 用 于 绘制 散 点 图 矩阵 ， 散 点 图 和 矩阵 是 多 个 变量 的 两 两 散 点 图 以 矩阵 的 形式 排列 起 来 ， 矩 阵 中 每 个 散 点 图 行 、 列 长 度 都 是 固定 的 。pairs () 函数 的 绘图 对 象 有 数据 框 和 公式 两 种 。 


“ 绘图 对 象 为 数据 框 的 使 用 格式 : 


pairs(x, labels, panel = points, http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15770/OEBPS/Text/...) 


' 绘图 对 象 为 公式 的 使 用 格式 : 


pairs (formula, data = NULL, http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15770/0EBPS/Text/..., subset, na.action = stats::na.pass) 


以 mtcars 为 例 ， 绘 制 散 点 图 矩阵 ， 如 图 4-35 所 示 。 


# 绘 图 对 象 为 公式 
pairs (~mpg+disptdrat+wt,data=mtcars,col=as.integer (factor (cyl))+1, main-"Scatter Plot Matrix") 
# 绘 图 对 象 为 数据 框 


pairs (mtcars[,c(1,3,5,6)],col-as.integer(factor(cyl))41, main-"Scatter Plot Matrix") 


(10) corrgram () RAŽ% 
corrgram 包 中 的 corrgram () KAATAA, XARAKAT, BAE FEATURE AAR, BASEA, BRUESEDRBERÉRT BESH. 


使 用 格式 : 


corrgram(x,order-, lower.panel- , upper.panel-,text.panel-,diag.panel-,:-:) 
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表 4-14 是 corrgram () 函数 常用 图 形 参 数 。 


表 4-14  corrgram () 函数 常用 图 形 参 数 


参数 描述 
X 一 个 数据 框 
变量 排序 ， 上 默认 为 FALSE， 相 关 和 矩阵 按 数据 框 名 对 变量 排序 ， 当 order 为 TRUE 时 ， 相 关 和 矩阵 将 使 


d »" 
”| 用 主 成 分 分 析 法 对 变量 重 排序 ， 这 将 使 得 二 元 变量 的 关系 模式 更 为 明显 
TEPENE 主 对 角 线 下 方 的 元 素 类 型 ， 取 值 panel.pie 时 ， 用 饼 图 的 填充 比例 来 表示 相关 性 大 小 ，panel.shade 用 


明 影 的 深度 来 表示 相关 性 大 小 ，panel.ellipse 绘制 置信 椭圆 和 平滑 拟 合 曲线 ，panel.pts 绘制 散 点 图 
upperpanel| ” 主 对 角 线 上 方 的 元 系 类 型 ， 取 值 同 上 

text.panel 取 值 为 panel.txt 时 输出 的 变量 名 字 

diag.panel 控制 主 对 角 线 元 素 类 型 panel.minmax 输出 变量 的 最 大 、 最 小 值 


以 mtcars 数 据 框 中 的 变量 相关 性 为 例 ， 它 含有 11 个 变量 ， 对 每 个 变量 都 测量 了 32 辆 汽车 。 


` 实例 : 画 相关 图 ， 如 图 4-36 所 示 。 


library (corrgram) 

# 相 关 图 ， 主 对 角 线 上 方 绘制 置信 椭圆 和 平滑 拟 合 曲线 ， 主 对 角 线 下 方 绘制 阴影 

corrgram (mtcars,order-TRUE,upper.panel-panel.ellipse, 
main-"Correlogram of mtcars intercorrelations") 

# 相 关 图 ， 主 对 角 线 上 方 绘制 散 点 图 ， 主 对 角 线 下 方 绘制 饼 图 

corrgram (mtcars,order-TRUE,upper.panel-panel.pts,lower.panel-panel.pie, 
main-"Correlogram of mtcars intercorrelations") 


b) 


图 4-36 ”相关 图 


(11) qqplot () 函数 


qqplot () 函数 用 于 绘制 QQ 图 ，QQ 图 检查 数据 是 否 服从 某 种 分 布 。QQ 图 的 原理 为 : 如 果 一 批 数 据 服从 某 种 理论 分 布 ， 看 其 经 验 分 布 和 理论 分 布 是 否 一 致 。 将 排序 后 的 数据 和 理论 分 布 的 分 位 数 进行 
比较 后 大 致 相等 ， 说 明了 经 验 分 布 和 理论 分 布 相似 。 


.使 用 格式 : 


qqplot(x, y,,http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15770/OEBPS/Text/...); qqnorm(y,':);qqline (y) 


: 实例 : 以 mtcars 为 例 ， 绘 制 QQ 图 ， 如 图 4-37 所 示 。 


par (mfrow-c (1,2)) 


qqnorm (wt) # 正 态 分 布 QQ 图 
qqline (wt) FOR, 
qqplot (qt(ppoints (length (wt)), df = 5), wt,xlab = "Theoretical Quantiles", 


ylab = "Sample Quantiles", main = "Q-Q plot for t dsn") 4t ROOH 
qqline (wt) FOR, 
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图 4-37 QQ 图 
(12) mosaicplot () 函数 
mosaicplot () 函数 用 于 绘制 马赛 克 图 ， 马 赛 克 图 检验 多 维 列 联 表 的 独立 性 。 图 中 矩形 面积 正比 于 单元 格 频 率 ， 其 中 该 频率 即 多 维 列 联 表 中 的 频率 。 颜 色 和 /或 阴影 可 表示 拟 合 模型 的 残 差 值 。 


.使 用 格式 : 


mosaicplot(x, dir = NULL, type = c("pearson", "deviance", "FT"), http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15770/OEBPS/Text/...) 或 


其 中 x 为 一 个 列 联 表 数 据 (可 以 用 函数 table () 生成 ) ，dir 指 定 马 赛 克 图 的 拆 分 方向 (横向 拆 分 或 纵向 拆 分 ) ; type 给 定 残 差 的 类 型 ， 即 如 前 所 述 的 三 种 残 差 。 


: X4): 以 mtcats 为 例 ， 绘 制 马赛 克 图 ， 如 图 4-38 所 示 。 
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图 4-38 马赛克 图 


mosaicdata-ftable(cyl,vs) #247] KA 
mosaicplot (mosaicdata, shade-TRUE, main-"") # 绘 制 马赛 克 图 


(13) stars () AŽ% 
stars () 函数 用 于 绘制 星 状 图 ， 


.使 用 格式 : 


星 状 图 用 线段 离 中 心 的 长 度 来 表示 变量 值 的 大 小 ， 展 示 多 变量 个 体 ， 每 个 变量 的 图 形 相互 独 立 ， 整 幅 图 形 看 起 来 就 像 很 多 星星 。 


stars (x, full-TRUE, scale-, radius-, labels-, locations-, len-, key.loc-, key.labels-, key.xpd-, flip.labels-,draw.segments-,col.segments-,col.stars-, frame.plot-,http://www.hzcourse.cor 


表 4-15 是 stars () 函数 的 常用 图 形 参 数 。 


参数 
X 
full 
scale 
radius 


labels 


locations 


E 


len 

key.loc 
key.labels 
key.xpd 
flip.labels 
draw.segments 
col.segments 
col.stars 


frame.plot 


44-15 stars () HAF M AKAZ 
描述 

个 多 维 数据 矩阵 或 数据 框 ， 每 一 行 数 据 将 生成 一 个 星 形 
逻辑 值 ， 决 定 了 是 否 使 用 整 圆 (或 半圆 )， 默 认为 TRUE 
是 否 将 数据 标准 化 到 区 间 [0, 1] 内 ， 默 认为 TRUE 
是 否 画 出 半径 ， 默 认为 TRUE 
每 个 个 体 的 名 称 ， 默 认为 数据 的 行 
以 一 个 两 列 的 矩形 给 出 每 个 星 形 的 放置 位 置 ， 默 认 放 在 一 个 规则 的 矩形 网 格 上 ， 若 提供 给 该 参数 


个 长 度 为 2 的 向 量 ,， 那么 所 有 星 形 都 将 被 放 在 该 坐标 上 ， 从 而 形成 蛛网 图 或 雷达 图 


半径 和 线段 的 缩放 倍数 

比例 尺 的 坐标 位 置 

比例 尺 的 标签 ， 默 认为 变量 名 称 

比例 尺 的 作 图 范围 

每 个 星 形 底部 的 名 称 是 否 互 相 上 下 错位 ， 以 人 免 名 称 太 长 导致 文本 之 间 互 相 重 释 
是 否 作 线段 图 ， 即 每 个 变量 以 一 个 扇形 表示 ， 默 认为 FALSE 

f^ JE p I f] i6, ( 当 draw.segments 为 FALSE 时 无 效 ) 

设 定 每 个 星 形 的 颜色 (C4 draw.segments 为 时 无 效 ) 

是 否 男 整个 图 形 的 边框 


- 实例 : 以 mtcars 为 例 ， 绘 制 星 状 图 ， 如 图 4-39 所 示 。 


pal-RColorBrewer::brewer.pal 


(11, "Setl") 


op=par (mai-c(0.3,0,0,0)) 


stars (mtcars,len-1,key.loc-2c(16,1.5),col.segments-pal, 


ncol-9,main-"",draw.segments-TRUE) 


par (op) 


(14) sunflowerplot () BRŽ% 


sunflowerplot () RAA FARAR RAAE, [SE EIUS ELE RRA EE RR LER ESTHER PRA REELLLER. UOCERIERSEBUNUSRI—2A& "AARRE" BUCO E SERRZSEB ESURSBU T AU JUPE 


SUR EVE BUE SR Ut sBER, TUEISEATBESERRURNENE. IJEEBUREICESUR RRA 2301s 2527323 SERRE IER A. 
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Toyota Corona AMC Javelin Pontiac Firebird a Porsche 914-2 
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图 4-39 ÆRA 


.使 用 格式 : 


sunflowerplot (x, y=, number, rotate-,size-, seg.col-, seg.lwd-,http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15770/0EBPS/Text/...) 


其 中 x 和 y 分 别 为 散 点 图 的 两 个 变量 ; number 为 人 工 给 定 的 数据 频数 ， 即 图 中 的 花瓣 数目 ， 若 不 指定 ，R 会 自动 从 x 和 y 计 算 ; rotate 决 定 是 否 随机 旋转 向 日 葵 的 角度 ， 默 认为 FALSE; size 为 向 日 葵花 交 
的 长 度 ， 单 位 为 英寸 ; seg.co 为 花 六 的 颜色 ; seg.lwd 为 花 关 的 宽度 。 


- 实例 : 以 mtcats 为 例 ， 绘 制 向 日 英 散 点 图 ， 如 图 4-40 所 示 。 


图 4-40 fg HX 


sunflowerplot (mpg, cyl col="green", seg.colL="1ight green") 


(15) contour () 函数 


contour () 函数 用 于 绘制 等 高 图 ， 等 高 图 展示 数据 的 形式 是 两 个 数值 向 量 x、y 和 一 个 相应 的 矩阵 z。Xx、y 交 叉 组 合 之 后 形成 一 个 “网 格 ” ，z 是 这 个 网 格 上 的 高 度数 值 ， 将 平面 上 对 应 z 值 (高 度 ) 相等 
的 点 连接 起 来 形成 的 线 就 是 等 高 线 。 估 计 x、y 的 核 密度 ， 得 到 一 个 密度 值 矩 阵 ， 然 后 用 x、y 以 及 这 个 密度 值 矩 阵 作 等 高 图 。 由 于 密度 值 反 映 的 是 某 个 位 置 上 数据 的 密集 程度 ， 所 以 等 高 图 展示 了 一 个 聚 类 现 
象 。 


.使 用 格式 : 


contour (x=, y=, Z, nlevels-,levels-,labels- ,method-,http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15770/OEBPS/Text/...) 


其 中 参数 x、y 与 z 此 处 不 再 介绍 ; nlevels73SEESZERJAREN, VHEESPESEEÉJENEA; levels 为 一 系列 等 高 线 的 z 值 ， 只 有 这 些 值 或 者 这 些 值 附近 的 点 才 会 被 连 起 来 ; labels 为 等 高 线 上 的 标记 字符 串 ， 默 认 是 高 
度 的 数值 ; method 设 定 等 高 线 的 画 法 ， 有 三 种 取 值 : 'simple' (在 等 高 线 的 末端 加 标签 、 标 签 与 等 高 线 重 晋 ) . 'edge' (在 等 高 线 的 末端 加 标签 、 标 签 戏 在 等 高 线 内 ) 和 flattest'” (在 等 高 线 最 平缓 的 地 方 


加 标签 、 谋 在 等 高 线 内 ) . 


: X45]: 以 mtcars 为 例 ， 绘 制 等 高 图 ， 如 图 4-41 所 示 。 


mtcarsl=data.frame (wt,mpg) 

est=bkde2D (mtcarsl, apply (mtcarsl, 2, dpik)) # 计 算 二 维 核 密度 

contour (est$x1,est$x2, est$fhat,nlevels -15,col-"darkgreen",xlab-"wt",ylab-"mpg") # 画 等 高 图 
points (mtcars1) 
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图 4-41 等 高 图 
(16) heatmap () 函数 
heatmap () 函数 用 于 绘制 热 图 ， 热 图 将 数值 用 颜色 表达 ， 如 颜色 深 表示 数值 大 ， 但 热 图 并 非 只 是 简单 地 显示 数值 分 布 状况 ， 而 且 对 数据 进行 层次 聚 类 ， 以 聚 类 的 顺序 排列 。 


“ 使 用 格式 : 


heatmap (x, Rowv-, Colv-,distfun-,hclustfun-,scale-c() ,http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15770/OEBPS/Text/...) 


其 中 x 是 数据 矩阵 ; Rowv 和 Colv 分 别 决 定 了 行 和 列 如 何 计算 层次 聚 类 和 重新 排序 ， 默 认为 NULL， 按 层次 聚 类 的 结果 将 行 和 列 重 新 排序 并 相应 画 谱系 图 ， 若 为 NA， 则 不 画 谱系 图 ; distfun 决 定 用 哪个 函 
数 计算 距离 ， 默 认为 dist () ; hclustfun 决 定 用 哪个 函数 计算 层次 聚 类 ， 默 认为 hclust; scale 决 定 是 否 对 行 或 列 进行 标准 化 ， 取 值 为 "row"、"column" 或 "none"。 


- 实例 : 以 mtcars 为 例 ， 绘 制 热 图 ， 如 图 4-42 所 示 。 


heatmap (as.matrix (mtcars),col=pal,scale = "column") 


Toyota Corona 
Porsche 914-2 
Datsun 710 
Volvo 142E 
Merc 230 
Lotus Europa 
Merc 280 
Merc 280C 
Mazda Rx4 Wag 
Maxda Rx4 
Merc 240D 


Ferrari Dino 


Fiat 128 

Fiat X1-9 

Toyota Corolla 
Honda Civic 

Merc 450SL 

Merc 450SE 

Merc 450SLC 
Dodge Challenger 
AMC Javelin 
Hornet 4 Drive 
Valiant 

Duster 360 

Camaro Z28 

Ford Pantera L 
Pontiac Firebird 
Hornet Sportabout 
Cadillac Fleetwood 
Lincoln Continental 
Chrysler Imperial 
Maserati Bora 


54-42 AA 
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本 章 首 先 学 习 了 如 何 向 简单 图 形 中 添加 各 种 图 形 元 素 ， 然 后 介绍 了 保存 图 形 和 图 形 组 合 的 方法 ， 最 后 利用 学 习 的 绘图 技巧 制作 各 种 类 型 图 形 。 


46 上 机 实验 


1. 实 验 目的 

"了解 R 语 言 中 各 种 图 形 元 素 的 添加 方法 ， 并 能 够 灵活 应 用 这 些 元 素 。 
C 了解 R 语 言 中 的 各 种 图 形 函 数 ， 掌 握 常见 图 形 的 绘制 方法 。 

2. 实 验 内 容 

某 银行 在 降低 贷款 拖欠 率 的 数据 bankloan 的 示例 表 见 表 4-16。 


表 4-16 ”银行 贷款 拖欠 率 数据 


40 
41 


* 数 据 详 见 : 第 4 章 / 上 机 实验 /data/bankloan.csv 
* 比较 违约 与 不 违约 情形 不 同 特征 的 人 群 分 布 。 
` 探索 不 同 特 征 的 人 群 收入 与 负债 的 分 布 情况 
.探索 不 同 特征 的 人 群 收 入 与 负债 的 关系 。 
3. 实 验方 法 与 步骤 
1) 数据 预 处 理 ， 调 整数 据 类 型 ， 将 年 龄 、 工 龄 分 组 。 
2) 绘制 违约 与 不 违约 客户 的 年 龄 、 教 育 和 工龄 的 条 形 图 、Cleveland 点 图 。 
3) 绘制 不 同年 龄 、 教 育 和 工龄 的 客户 收入 与 负债 的 直方 图 、 核 密度 图 、 箱 线 图 、 小 提琴 图 。 
4) 绘制 不 同年 龄 、 教 育 和 工龄 下 客户 的 收入 与 负债 的 散 点 图 。 
4. 思 考 与 实验 总 结 
1) 如 何 选 择 绘制 的 图 形 类 型 ? 


2) 如 何 向 原始 图 形 添加 合适 的 图 形 元 素 ， 使 图 形 简单 明了 且 更 能 表达 数据 含义 ? 


第 5 章 ”高 级 绘图 工具 


高 级 绘图 工具 是 相对 于 R 的 基础 绘图 系统 而 言 的 ， 包 括 |attice 图 形 系统 、ggplot2 图 形 系统 以 及 各 类 交互 式 绘 图 工具 ，。 


本 章 重 点 介绍 lattice 包 和 ggplot2 包 生成 的 图 形 。 这 两 个 包 极 大 地 扩展 了 R 绘 图 的 范畴 ， 提 高 所 绘图 形 的 质量 。 本 章 最 后 还 会 介绍 交互 式 图 形 ， 与 图 形 实时 交互 可 以 使 读者 加 深 对 数据 的 理解 ， 很 快 洞察 
到 变量 间 的 关系 。 届 时 ， 将 重点 介绍 rCharts、recharts、googleVis、htmlwidgets 和 shiny 包 提供 的 交互 式 可 视 化 功能 


5.1 lattice 包 绘图 工具 


lattice 包 是 由 Deepayan Sarkar 基 于 grid 包 编写 的 一 套 统计 图 形 系统 ， 它 的 图 形 设计 理念 来 自 于 Cleveland 的 Trellis 图 形 。grid 图 形 系统 可 以 很 容易 控制 图 形 基础 单元 ， 给 予 编程 者 创作 图 形 极 大 的 灵活 
性 。lattice 包 通过 栅栏 (trellis) 图 形 来 对 多 元 变量 关系 进行 直观 展示 ， 为 单 变量 和 多 变量 数据 的 可 视 化 提供 一 个 全 面 的 图 形 系统 。 一 些 用 标准 绘图 很 难 实现 的 功能 ，lattice 包 却 能 很 轻易 地 实现 。 本 节 介 绍 
如 何 lattice 包 创建 一 些 独特 而 实用 的 图 形 。 


511 绘图 特色 


与 plot 函 数 相 似 ，lattice 包 也 有 可 以 绘制 散 点 图 的 xyplot 函 数 。 与 plot 函 数 不 同 的 是 ， 它 的 绘制 对 象 是 一 个 表达 式 y~x。 


| 实例 : 以 mtcafs 数 据 集 为 例 ， 绘 制 车 身 重 量 与 每 加 仓 汽油 行驶 的 英里 数 的 散 点 图 。 绘 制 出 的 图 形 见 图 5-1。 


library (lattice) 
xyplot (mpg-wt,data-emtcars,xlab-"Weight",ylab-"Miles per Gallon") 
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图 5-1 简单 散 点 图 
1. 图 形 参 数 


基础 绘图 需要 设置 参数 来 绘制 漂亮 的 图 形 ， 而 lattice 包 将 默认 的 图 形 参数 包含 在 一 个 很 大 的 列表 对 象 中 ， 可 以 不 用 设置 参数 。lattice 包 的 图 形 参数 可 通过 trellis.par.get () 函数 来 获取 ， 并 用 
trellis.par.set () 国 数 来 修改 。show.settings () 函数 可 展示 当前 的 图 形 参 数 设置 情况 。 


如 果 希 望 查看 所 有 设置 的 列表 ， 可 以 调用 不 带 参数 的 trellis.par.get 函 数 。 


> names (trellis. "pete get ()) 


[1] "grid.pars" "fontsize" "background" 

[4] "panel.background" "clip" "add.line" 

[7] "add.text" "plot.polygon" "box.dot" 

[10] "box.rectangle" "box.umbrella" "dot.line" 

[13] "dot.symbol" "plot.line" "plot.symbol" 

[16] "reference.line" strip. background" "strip.shingle" 
[19] "strip. border" "superpose.line" "superpose .symbol" 
[22] "superpose. polygon "regions" "shade.colors" 
[25] "axis.line" "axis.text" "axis.components" 
[28] "layout.heights" "layout.widths" "box.3d" 
[31] "par.xlab.text" "par.ylab.text" "par.zlab.text" 
[34] "par.main.text" "par.sub.text" 


或 者 调用 函数 show.settings () 图 形 化 显示 所 有 的 设置 ， 这 种 方式 更 好 。 调 用 结果 如 图 5-2 所 示 。 


show.settings() 


lattice 包 的 图 形 参数 是 有 层次 的 ， 可 以 将 它们 看 作 列 表 的 列表 。 共 有 34 个 高 级 参数 组 来 描述 作 图 时 用 到 的 不 同 元 素 。 
2. 条 件 变量 


lattice 包 绘图 工具 的 一 个 的 强大 之 处 在 于 ， 可 以 通过 添加 条 件 变量 ， 创 建 出 各 个 水 平 下 的 面板 。 条 件 变量 的 设置 通常 不 超过 两 个 。 一 般 情况 下 ， 条 件 变 量 是 因子 型 变量 。 知 条 件 变量 为 连续 性 ， 则 需 
先 将 连续 型 变量 转换 为 离散 变量 ， 再 将 其 设置 为 条 件 变量 
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superpose.symbol superpose.line dot.[symbol, line] 
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x.[dot, rectangle, umbrella] add.[line.text]| reference.line plot.[symbol, line] plot.shingle 
[plot.polygon] 


histogram barchart superpose.polygon regions 
[plot.polygon] [plot.polygon] 


图 5-2 show.settings () 函数 调用 的 示例 


添加 条 件 变量 v 的 方式 为 : 


graph function (formula|v, data=, options) 


. 实例 : 绘制 栅栏 图 ， 图 形 见 图 5-3。 


displacement«-equal.count (mtcars$disp,number-3,overlap-0) 
xyplot (mpg-wt|displacement,data-mtcars,main-"Miles per Gallon vs. Weight by Engine Displacement",xlab-"Weight",ylab-"Miles per Gallon",layout-c (3,1),) 
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图 5-3 ”以 发 动机 排 量 为 条 件 变量 时 的 栅栏 图 
3. 面 板 函 数 


在 lattice 包 中 ， 每 个 高 级 绘图 函数 都 调用 了 一 个 默认 的 函数 来 绘制 面板 。 如 xyplot () 函数 默认 的 绘图 函数 为 panel.xyplot。 这 些 默认 的 函数 服从 如 下 命名 惯例 : panel.graph function。 其 
中 ，graph_function 是 该 水 平 绘图 函数 。 


此 外 ， 还 有 对 面板 定义 或 者 增加 外 观 细节 的 低级 面板 函数 。 这 些 函 数 可 以 为 lattice 图 形 添加 线 、 文 本 或 者 其 他 图 形 元 素 。 可 以 使 用 自 定 义 函 数 蔡 换 默 认 的 面板 函数 ， 也 可 将 lattice 包 中 的 50 多 个 默认 面 
板 中 的 某 个 或 多 个 整合 到 自 定 义 的 函数 中 。 自 定义 面板 函数 具有 极 大 的 灵活 性 ， 可 随意 设计 输出 结果 以 满足 要 求 。 


表 5-1 低级 面板 函数 说 明 


E 描述 
panel.abline 在 面板 的 图 表 区 域 增加 线 
panel.curve 在 面板 的 图 表 区 域 增加 曲线 
panel.rug 在 面板 上 增加 轴 须 


panel.mathdensity 给 定 分 布 函数 ,绘制 概率 分 布 图 
panel.average 按照 因子 变量 ,绘制 平均 值 
panel.fill 对 面板 填充 具体 的 颜色 
panel.grid 绘制 网 格 线 


panel.loess 增加 一 条 光滑 曲线 

panel.lmline 为 数据 增加 一 条 回归 线 

panel.refline 在 面板 的 图 表 区 增加 一 条 线 

panel.qqmathline 在 样本 和 理论 分 布 的 25 分 位 点 和 75 分 位 点 加 一 条 线 
panel.violin 绘制 小 提 芙 图， 通常 用 于 箱 线 图 


如 果 我 们 想 把 图 5-1 所 示 的 简单 散 点 图 增加 回归 线 、 光 滑 曲 线 、 轴 须 和 网 格 线 ， 只 需要 将 panel 参 数 设置 为 一 个 整合 了 多 个 面板 函数 的 函数 即 可 。 


- 实例 : 依据 上 述 要 求 绘制 散 点 图 ， 图 形 见 图 5-4。 


panel-function (x, y) (panel.lmline (x, y,col-"red",lwd-1,lty-2) 
panel.loess (x, y) 
panel.grid(h--1,v--1) 
panel.rug (x, y) 
panel.xyplot (x, y) } 
xyplot (mpg-wt,data-mtcars,xlab-"Weight",ylab-"Miles per Gallon", 
main-" Miles per Gallon on Weight",panel-panel) 


4. 分 组 变量 


前 文 已 经 讲 过 ， 通 过 添加 条 件 变 量 ， 可 以 创建 出 各 个 水 平 下 的 面板 。 若 想 要 把 不 同 水 平 的 图 形 结 果 苹 加 到 一 起 ， 则 可 以 将 变量 设 定 为 分 组 变量 。 


分 组 变量 v 的 设 定格 式 为 : 


graph function (formula, data=, qroup=v) 
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图 5-4 绘制 添加 回归 线 、 光 滑 曲 线 、 轴 须 和 网 格 线 的 散 点 图 


- 实例: 以 mtcats 数 据 集 为 例 绘制 散 点 图 ， 图 形 见 图 5-5。 


xyplot (mpg~wt, data=mtcars, groups=factor (Ccyl),pch-1:3,col-21:3, 


main-"Miles per Gallon vs Weight by Cylinder", 

xlab-"Weight",ylab-"Miles per Gallon", 

key-list (space-"right",title-"Cylinder",cex.title-1,cex-1, 
text-list (levels (factor (mtcarsS$Ccyl))), 
points-list (pch-21:3,col-21:3))) 


Miles per Gallon vs Weight by Cylinder 
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图 5-5 “以 发 动机 气缸 数量 为 分 组 变量 的 散 点 图 


我 们 让 Cylinder 数量 用 不 同 的 点 样式 表示 : 4 是 圆 点 ，6 是 三 角形 ，8 是 十 字形 ， 并 且 添 加 了 图 例 的 标题 ， 说 明 4、6、8 分 别 代 表 的 含义 ， 最 后 将 图 例 放置 在 右 侧 。 
5. 页 面 摆 放 
通过 第 4 章 的 学 习 ， 我 们 知道 par 函 数 可 以 在 一 个 页 面 中 摆 放 多 个 图 形 。 但 lattice 包 不 识别 par () 设置 ， 需 要 新 的 方法 完成 页 面 摆 放 。 最 简单 的 方法 便 是 先 将 lattice 图 形 存储 到 对 象 中 ， 然 后 利用 plot 函 


数 中 的 split= 和 position= 选 项 来 进行 控制 |。 
split 的 四 个 选项 将 页 面 分 割 为 一 个 指定 行 数 和 列 数 的 矩阵 ， 然 后 将 图 形 放置 到 该 德 阵 中 。 这 四 个 选项 分 别 为 : 图 形 所 处 的 列 ， 图 形 所 处 的 行 ， 列 的 总 数 ， 行 的 总 数 。 


下 面 将 图 5-1 和 图 5-3 摆 放 在 一 个 页 面 ， 以 此 简单 说 明 split 的 用 法 。 执 行 以 下 代码 可 得 到 图 5-6。 


graphl«-xyplot (mpg-wt,data-mtcars,xlab-"Weight",ylab-"Miles per Gallon") 

graph2«-xyplot (mpg-wt | displacement, data=mtcars, xlab=" Weight", 
ylab-"Miles per Gallon",layout-c (3,1)) 

plot (graphl,splite-c(1,1,2,1)) 

plot (graph2,split-c (2,1,2,1),newpage-FALSE) 


positionBS NA TRTRVES B — P x- y ARRIER, AAEE, 11K, RAAE P faeta MESI (0, 0), BEAZ (1, 1) 。 这 四 个 选项 分 别 是 图 形 左下 角 和 右 下 角 的 坐标 值 。 


下 面 仍 将 图 5-1 和 图 5-3 摆 放 在 一 个 页 面 ， 以 此 简单 说 明 position 的 用 法 。 执 行 以 下 代码 同样 可 得 图 5-6。 


splacement | digplägement | displace 


Miles per Gallon 
N 
Miles per Gallon 


15 


© 


图 5-6 ”同一 页 面 的 散 点 图 和 添加 条 件 变量 的 散 点 图 


lot (graphl,position- 
lot (graph2,position- 


0,0.5,1)) 
5,0,1,1),newpage-FALSE) 


(0, 
(0. 


C 
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peo, 


5.1.2 基本 图 形 


lattice 包 绘图 工具 应 用 于 绘制 各 种 函数 图 形 ， 包 括 生成 单 变量 图 形 (点 图 、 核 密度 图 、 直 方 图 、 柱 状 图 和 箱 线 图 ) 、 双 变量 图 形 ( 散 点 图 、 带 状 图 和 平行 箱 线 图 ) 和 多 变量 图 形 (三 维 图 和 散 点 图 矩 
阵 ) 。 


各 种 高 级 绘图 函数 都 服从 以 下 格式 : 


graph function (formula, data=, options) 


其 中 ，formula 为 函数 形式 即 图 形 表 达 式 ，data 为 对 应 的 数据 集 ，options 为 各 种 绘图 时 的 选项 ， 用 于 设置 图 形 的 格式 和 标注 等 。 


表 5-2 jlattice 包 的 函数 名 和 对 应 函数 功能 


函数 名 绘制 对 象 
barchart CH, KAN, WE, UEN pi, RE 
dotplot TH. RAN, EE, ZUEN E, R 
histogram 因子 ， 表 达 式 ， 数 值 型 向 量 
densityplot 表达 式 ， 数 值 型 器 量 
stripplot 表达 式 ， 数 值 型 回 量 
qqmath 表达 式 ， 数 值 型 回 量 
qq 表达 式 
bwplot 表达 式 ， 数 值 型 器 量 
xyplot 表达 式 
splom 数据 框 RAKIN, ARI 
levelplot TH. RIAN, ABER, RER 
contourplot 数组 ， 表 达 式 ， WE, KHR 
cloud 表达 式 ME, RI 


wu 


wireframe 三 维 曲 面 图 


在 lattice 包 中 ， 大 部 分 绘图 函数 的 参数 选项 都 是 相同 的 。 表 5-3 是 lattice 包 中 绘图 函数 一 些 常用 的 通用 参数 选项 的 介绍 和 说 明 。 这 些 参数 的 解释 将 不 再 作 详细 说 明 。 


EX. AR 


表 5-3 lattice 包 绘图 函数 的 常用 参数 


常见 参数 描述 
x 要 绘制 的 对 象 ， 可 以 是 表达 式 、 数 组 、 数 值 型 品 量 或 者 表格 
data 当 x 是 表达 式 时 ，data 是 函数 要 调用 的 一 个 数据 框 
说 明 如 何 解 释 形 如 y+ty,~XlZ(X、Z 剖 可 能 是 多 元 变量 的 函数 ) 的 公式 。allow. 
allow.multiple multiple=TRUE 为 默认 状态 ，lattice 函数 将 在 同一 个 面板 上 重 著 绘制 y,-X|Z 和 y,~X|Z ; 如 


果 allow.multiple=FALSE， 将 绘制 (y,*y;)-X|Z 
当 allow.multiple-TRUE LA J& til 4E ZA Pd 4E 5k Bj, J xE ved EH GERE. X 


t " . 

nd outer-FALSE, ， 绘 制 委 加 图 ; Æ outer=TRUE， 图 形 在 不 同 的 面板 展示 
l 数值 IFURA on bwplot、barchart 和 stripplot， 指 定 内 部 矩形 空间 的 
box.ratio RA 
Kt 

horizontal ZHE, TE bwplot, dotplot, barchart 和 stripplot 中 指定 图 形 放 置 的 方 回 : 水 平 或 垂直 
panel 用 户 绘 制 的 一 个 面板 函数 

ai 指定 不 同 面板 的 宽 高 比 。 默 认 情 况 下 aspect=”f1”"， 填 充 可 用 空间 ; aspect” xy", X 
asp 


示 使 用 Cleveland 45? banking 法 则 来 计算 宽 高 比 ; aspect-" iso", 3ézR SERB kef 
groups 指定 传递 给 面板 六 数 摘 述 数据 分 组 的 变量 


常见 参数 描述 
auto.key 逻辑 值 ， 添 加 分 组 变量 的 图 例 符 号 (变量 key fll legend 2:78 x auto.key 的 值 ) 
PRA, HS% PREX panel 相同 ， 返 回 一 个 列表 ， 其 中 包括 xim, ylim, dx 和 dy (以 及 
相对 少见 的 xat 和 yat) 
strip 逻辑 信 ， 指 定 标签 面板 是 否 需要 绘制 
xlab 、ylab 指定 x 轴 、? 轴 标 签 的 字符 值 
scales 列表 ， 指 定 x 轴 、y 轴 需 要 怎样 绘制 
subscripts 逻辑 信 ， 指 定 传递 给 面板 困 数 的 命名 空间 回 量 
subset 指定 data 的 子 集 来 绘制 图 形 ( 默认 包含 所 有 的 数据 ) 
xlim, ylim 两 元 素数 值 型 回 量 ， 分 别 设 定 x 轴 和 y 轴 的 最 小 值 和 最 大 值 
drop.unused.levels PIHA, JEET AREH KFAR 
default.scales scales 的 默认 值 列表 
lattice.options 绘制 参数 的 列表 ， 和 标准 R 图 形 的 par 相似 
fein VERAX trellis.skeleton 参数 


prepanel 


1. 条 形 图 


lattice 包 使 用 barchart 函 数 绘制 条 形 图 ，barchart 绘 制 条 形 图 有 如 下 两 种 方法 : 


barchart (table,http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15770/OEBPS/Text/...) 
barchart(formula,data-data frame,http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15770/OEBPS/Text/...) 


默认 情况 下 ， 通 过 面板 函数 panel.barchart 来 生成 和 调整 barchart 图 形 。 


我 们 利用 R 自 带 的 泰坦 尼克 号 乘客 生存 的 数据 集 Titanic 绘 制 条 形 图 ， 对 Titanic 数 据 集 进 行 数据 分 析 ， 利 用 str 函 数 查看 数据 结构 。 


> str(Titanic) 
table [1:4, 1:2, 1:2, 1:2] 00 35 00 0 17 0 118 154 http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15770/OEBPS/Text/... 
- attr(*, "dimnames")-List of 4 


ttp: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15770/O0EBPS/Text/..$ Class : chr [1:4] 

ttp: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15770/OEBPS/Text/..$ Sex : chr [1:2] "Male" "Female" 
ttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15770/OEBPS/Text/..$9 Age : chr [1:2] "Child" "Adult" 
ttp: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15770/OEBPS/Text/..$ Survived: chr [1:2] "No" "Yes" 


"lst" "2nd" "3rd" "Crew" 


2OOO 


从 上 面 结果 可 知 ，Titanic 是 一 个 四 维 列 联 表 ， 由 四 个 变量 Class、Sex、Age 和 Survived 组 成 。barchart 可 以 直接 对 table 类 型 绘制 条 形 图 ，R 代 码 比较 简单 ， 这 里 不 再 敖 述 ， 详 见 第 5 章 代 码 。 
我 们 也 可 以 将 表格 数据 Tatanic 转 换 成 数据 框 ， 然 后 通过 参数 x 来 指定 表达 式 、 参 数 data 指 定数 据 框 的 方式 来 绘制 条 形 图 。 


. 实例 : 绘制 图 5-7 左 图 所 示 的 条 形 图 。 


barchart (Class~Freq|Sex+Age, data=as .data.frame (Titanic),groups=Survived, stack=TRUE, auto.key-list (title-"Survived",columns-2)) 


Survived Survived Survived 
NoL | Yes EE NoL | Yes m] NoL |] Yes L | 
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a) 默认 条 形 图 b) 将 x 轴 坐标 设置 为 free 的 条 形 图 c) 增加 垂直 网 格 线 ， 并 将 条 形 
边框 设置 为 透明 色 的 条 形 图 


图 5-7 
stack 参 数 设 定 条 形 图 是 以 推 积 还 是 分 组 方式 展示 ， 通 过 调整 auto.key 参 数 ， 可 以 给 图 例 增加 标题 和 改变 其 排列 方式 。 此 处 我 们 增加 图 例 标题 ”Survived” ， 并 将 图 例 排列 变 成 一 行 两 列 。 


从 图 5-7a 中 发 现 ， 成 年 人 (Adult) 的 人 数 远 多 于 小 孩 (Child) ， 我 们 可 以 将 Scales 参 数 设置 为 x=”free” 来 优化 条 形 图 ， 提 高 图 形 的 可 读 性 。 执 行 以 下 代码 ， 得 到 的 条 形 图 如 图 ?5-7b 所 示 。 


barchart (Class-Freq|Sex*Age,data-as.data.frame(Titanic), groups-Survived, stack-TRUE,auto.key- list(title-"Survived",columns-2),scales-list (x-"free")) 


可 以 将 barchart 存 储 在 mygraph 对 象 中 ， 执 行 以 下 代码 : 


mygraph«-barchart (Class~Freq|Sex+Age, data=as.data.frame (Titanic), groups-Survived, stack=TRUE, auto.key-list(title-"Survived",columns-2), scales-list (x="free")) 


此 时 不 会 展示 任何 图 形 ， 只 有 调用 plot (mygraph) (skprint (mygraph) , mygraph) RJZ EREUE. 59h, wILMssFBupdateBSjek(epIlatticel KR. RUR JACET ESI PIRATES ERIS 
线 ， 并 将 条 形 边框 设置 为 透明 色 ， 可 利用 update 函 数 修 改 面 板 参数 panel 实 现 。 执 行 以 下 代码 可 得 到 图 5-7c 所 示 的 条 形 图 。 


update (mygraph, panel-function (http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15770/0EBPS/Text/...){ 
panel.grid (h=0, v=-1) 
panel.barchart (http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15770/OEBPS/Text/...,border-"transparent") 


)) 


* 代 码 详 见 : 第 5 章 / 示 例 程序 /code/code5-1.R 


点 图 提供 了 一 种 在 简单 水 平 刻度 上 绘制 大 量 有 标签 值 的 方法 。 可 以 用 dotplot 函 数 创建 点 图 。 和 barchart 一 样 ，dotplot 默 认 通 过 公式 和 数据 框 指 定数 据 ， 但 是 ， 对 于 table 类 还 有 另 一 个 方法 可 以 使 用 : 


dotplot (x, data, groups=TRUE,:…, horizontal=TRUE) 


实例 : 以 1940 年 弗吉尼亚 州 记 录 的 每 1000 人 死亡 率 数 据 集 VADeaths 为 例 ， 绘 制 点 图 分 析 不 同年 龄 段 不 同人 群 的 死亡 率 。 图 形 见 图 5-8。 


Death Rates in Virginia-1940 
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a) 对 VADeaths 数据 集 绘制 分 组 点 图 Rural Female 
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b) 对 VADeaths 数据 集 绘制 面板 点 图 c) 调整 type 参数 绘制 的 面板 点 图 


图 5-8 


执行 以 下 代码 得 到 图 5-8a 所 示 的 分 组 点 图 。 


dotplot (VADeaths, pch=1:4,col=1:4, xlab = "Rate (per 1000)", 
main = list("Death Rates in Virginia - 1940",cex-0.8), 
key-list(column-4, text-list (colnames (VADeaths)), points-list (pch-1:4,col-1:4))) 


为 了 提高 图 形 的 可 读 性 ， 在 图 5-8a 中 增加 了 主 标题 和 x 轴 标题 ， 并 对 不 同人 群 用 不 同 的 颜色 和 符号 进行 区 分 ， 最 后 通过 key 参 数 设置 图 例 的 样式 和 摆 放 方 式 。 从 图 5-8 我 们 可 知 ， 男 性 死亡 率 高 于 女性 ， 
其 中 城市 男性 死亡 率 又 高 于 农村 男性 。 


如 果 我 们 将 参数 groups 设 置 为 FALSE， 则 可 以 画 出 面板 图 ， 执 行 以 下 代码 得 到 如 图 5-8 所 示 的 面板 点 图 。 


dotplot(VADeaths, groups = FALSE, main = list("Death Rates in Virginia - 1940",cex-0.8), 
xlab = "Rate (per 1000)") 


从 图 5-8b 可 知 ， 不 同人 群 都 存在 相同 的 规律 ， 即 死亡 率 随 着 年 龄 的 增长 而 增 大 。 我 们 也 可 以 通过 调整 type 参 数 ， 来 对 图 5-8b 进 行 美化 。 执 行 以 下 代码 得 到 图 5-8c 所 示 的 面板 点 图 。 


dotplot(VADeaths, groups = FALSE, layout=c (1,4), origin = 0, type = c("p", "h"), 
main — list("Death Rates in Virginia - 1940",cex-0.8), xlab - "Rate (per 1000)") 


* 代 码 详 见 : 第 5 章 / 示 例 程序 /code/code5-1.R 
3. 直 方 图 


直方 图 通过 在 X 轴 上 将 值 域 分 割 为 一 定数 量 的 组 ， 在 Y 轴 上 显示 相应 值 的 频数 ， 展 示 了 连续 型 变量 的 分 布 。 在 lattice 包 中 绘制 直方 图 可 以 使 用 histogram 消 数 。 


- 实例 : nutshell 包 的 bitths2006.smpl 数 据 集 ， 包 含 了 2006 年 美国 出 生 人 口 的 数据 的 10% 样 本 ， 每 一 条 记录 有 13 个 变量 。 使 用 数据 集 前 ， 需 通过 install.packages ( “nutshell” ) 安装 并 加 载 。 


以 美国 出 生 人 口 数 据 为 例 ， 利 用 直方 图 查看 不 同 胎 数 下 婴儿 的 平均 重量 。 执 行 以 下 代码 得 到 图 5-9 所 示 的 直方 图 。 


library (lattice) 

library (nutshell) 

data (births2006.smpl) 

histogram (-DBWT|DPLURAL,data-births2006.smpl, main-"Births in the United States, 2006", 
layout-c(1,5),xlab-"Birth weight, in grams") 
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图 5-9 不同 胎 数 的 婴儿 出 生 时 重量 的 直方 图 
为 了 更 方便 地 对 不 同 的 组 做 比较 ， 我 们 通过 layout 参 数 将 图 形 垂 直 堆 积 起 来 。 从 图 5-9 可 知 ， 从 单 胞 胎 到 多 胞 胎 ， 婴 儿 的 平均 重量 是 减少 的 。 
4. 核 密度 图 
如 果 想 用 一 条 线 而 不 是 通过 一 组 矩形 块 来 展示 连续 型 变量 的 分 布 ， 可 以 选择 核 密度 图 。 在 lattice 包 中 ， 核 密度 图 可 以 用 densityplot 遂 数 来 绘制 。 


对 于 前 面 的 直方 图 所 展示 的 数据 ， 此 处 改 用 密度 图 来 说 明 。 默 认 情 况 下 ，densityplot 会 在 每 个 图 的 下 面 绘制 一 个 带 状 图 来 展示 每 一 个 数据 点 。 但 是 ， 由 于 本 例 中 的 数据 集 非 常 大 (427432 个 观测 值 ) ， 
因此 设置 plot.points=FALSE， 不 绘制 数据 点 。 执 行 以 下 代码 得 到 图 5-10a 图 所 示 的 密度 图 。 


densityplot (~DBWT | DPLURAL, data=births2006.smpl, layout-c(1,5),plot.points-FALSE, 
main-"Births in the United States, 2006",xlab="Birth weight, in grams") 


相 比 直方 图 ， 密 度 图 的 一 个 优势 是 可 以 在 彼此 上 方 堆放 ， 而 且 结 果 还 有 可 读 性 。 将 条 件 变量 (DPLURAL) D7SAT83EE, TARERE. BISE, fRESZUSURILAEGBUA 512 To BTE 
(和 它们 的 中 心 点 ) 。 执 行 以 下 代码 可 得 到 图 5-10b 所 示 的 芭 加 密度 图 。 


densityplot (~DBWT, groups=DPLURAL, data=births2006.smpl,plot.points=FALSE, 

main-"Births in the United States, 2006",xlab="Birth weight, in grams", 

lty-1:5,col-21:5,1wd-1.5,key-list (text-list (levels (births2006.smplSDPLURAL)), 
column-3,lines-list(lty-1:5,col-21:5))) 
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a) 不 同 胎 数 的 婴儿 出 生 时 重量 的 概率 密度 图 b) 不 同 胎 数 的 婴儿 出 生 时 重量 的 释 加 概率 密度 图 


图 5-10 


当 数 据 量 不 多 时 ， 可 以 采用 带 状 图 代替 直方 图 来 展示 数据 ， 可 以 认为 带 状 图 是 一 维 的 散 点 图 。 在 lattice 包 中 ， 通 过 stripplot 函 数 绘制 带 状 图 。 


下 面 以 前 例 中 四 胞 胎 及 以 上 的 组 的 婴儿 重量 为 例 来 说 明 带 状 图 。 数 据 集中 符合 条 件 的 观测 值 只 有 44 个 ， 因 此 带 状 图 是 一 个 展示 密度 的 合适 方法 。 在 这 个 例子 中 ， 可 以 使 用 subset 参 数 来 指定 需要 绘制 图 
形 的 数据 集 ， 同 时 通过 设置 参数 jtterdata=TRUE 增 加 一 些 随机 的 垂直 噪声 来 使 数据 点 更 具有 可 读 性 。 


CES: 执行 以 下 代码 ， 绘 制 带 状 图 ， 图 形 见 图 5-11。 


stripplot (~DBWT, data=births2006.smpl, main-"Births in the United States, 2006", 
subset-(DPLURAL--"5 Quintuplet or highter" |DPLURAL--"4 Quadruplet"), 
jitter.data-TRUE,xlab-"Birth weight, in grams") 


Births in the United States, 2006 
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Birth weight, in grams 


图 5-11 四 胞 胎 及 以 上 的 婴儿 出 生 时 重量 的 带 状 图 


6.Q-Q 图 


lattice 包 里 另外 一 个 很 有 用 的 图 是 Q-Q 图 。Q-Q 图 用 于 比较 数据 的 实际 分 布 与 理论 分 布 。 具 体 来 说 ， 它 绘制 观测 数据 的 分 位 与 理论 分 布 的 分 位 图 形 。 如 果 绘 制 的 点 形成 了 一 条 直 的 对 角 线 (从 右上 到 左 
下 ) ， 说 明 观 测 数 据 服从 理论 的 分 布 。Q-Q 图 是 一 种 识别 数据 集 与 理论 分 布 拟 合 程度 优 务 的 非常 有 用 的 技术 。lattice 包 中 的 qqmath 函 数 可 绘制 单 变量 Q-Q 图 ，qq 函 数 可 生成 比较 两 个 分 布 的 Q-Q 图 。 


实例 : lattice 包 中 的 singer 数 据 集 包含 了 合唱 成 员 的 身高 和 声 部 数据 。 执 行 以 下 代码 生成 如 图 5-12a 所 示 的 单 变量 Q-Q 图 。 


library (lattice) 
qqmath (~ height | voice.part, data = singer, prepanel = prepanel.qgmathline, 
panel = function(x, http: / /www .hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15770/OEBPS/Text/...) ( 
panel.qgmathline (x, http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15770/O0EBPS/Text/...) 
panel .qqmath (x, http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15770/OEBPS/Text/...) 
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单 变 量 Q-Q 图 b) 比较 两 个 分 布 的 Q-Q 图 


图 5-12 


接 下 来 ， 我 们 对 声 部 变量 选取 男 低音 1 和 男 高 音 2 的 子 集 ， 利 用 qq 函数 生成 比较 两 个 分 布 的 Q-Q 图 。 执 行 以 下 代码 得 到 图 5-12b 所 示 的 比较 两 个 分 布 的 Q-Q 图 。 


qq(voice.part ~ height, aspect = 1, data = singer, 
subset = (voice.part == "Bass 2" | voice.part == "Tenor 1")) 
7. 箱 线 图 
箱 线 图 通过 绘制 连续 型 变量 的 五 数 总 括 ， 即 最 小 值 、 下 四 分 位 数 (第 25 百 分 位 数 ) 、 中 位 数 (第 50 百 分 位 数 ) 、 上 四 分 位 数 (第 75 百 分 位 数 ) 以 及 最 大 值 ， 描 述 连 续 型 变量 的 分 布 。 箱 线 图 能 够 显示 出 


可 能 为 离 群 点 (范围 为 正 负 1.5*IQR 以 外 的 值 ，IQR 表 示 四 分 位 距 ， 即 上 四 分 位 数 与 下 四 分 位 数 的 差 值 ) 的 观测 。 在 lattice 包 中 ， 绘 制 箱 线 图 可 以 通过 bwplot 函 数 实现 。 
实例 : 对 于 singer 数 据 集 ， 我 们 将 voice.part 作 为 条 件 变 量 ， 查 看 不 同类 型 歌手 的 身高 数据 分 布 情况 。 


执行 以 下 代码 得 到 图 5-13a 所 示 的 栅栏 箱 线 图 。 


bwplot( ~ height|voice.part, data-singer, xlab="Height (inches)") 
从 图 5-13a 大 致 可 以 看 出 ， 男 性 歌手 的 身高 整体 会 比 女性 歌手 高 。 如 果 我 们 将 voice.part 作 为 分 组 变量 ， 将 能 更 清晰 地 展示 这 一 信息 。 执 行 以 下 代码 得 到 图 5-13b 所 示 的 分 组 箱 线 图 。 


bwplot(voice.part ~ height, data-singer, xlab-"Height (inches)") 


从 图 5-13b 可 以 清晰 地 看 到 ， 不 同类 型 歌手 的 整体 身高 呈现 以 下 规律 : 男 低音 大 于 男 高 音 ， 男 高 音 大 于 女 低 音 ， 女 低音 大 于 女 高 音 。 
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a) 以 voice.part 作为 条 件 变 量 的 栅栏 箱 线 图 b) 以 voice.part 作为 分 组 变量 的 分 组 箱 线 图 


图 5-13 
8. 散 点 图 
散 点 图 可 用 来 描述 两 个 连续 型 变量 间 的 关系 。 在 lattice 包 中 ， 可 以 使 用 xyplot 函 数 生成 散 点 图 。 


实例 : 利用 R 自 带 的 营 尾 花 数 据 集 iris， 我 们 以 Species 为 条 件 变量 ， 研 究 Sepal.Length 与 Sepal.Width 两 个 变量 之 间 的 关系 。 执 行 以 下 代码 得 到 图 5-14 所 示 的 散 点 图 。 


xyplot (Sepal.Length-Sepal.Width|Species,data-iris) 


9. BAERE 
如 果 想 对 和 矩阵 的 多 对 变量 生成 散 点 图 ， 在 lattice 包 中 ， 可 以 通过 splom 函 数 来 实现 。 


实例 : 利用 R 自 带 的 汽车 数据 集 mtcars， 我 们 将 cy 变量 作为 分 组 变量 ， 画 出 变量 mpg、disp、hp、drat、wt、qeec 间 的 散 点 图 矩阵 。 执 行 以 下 代码 得 到 图 5-15 所 示 的 散 点 图 矩阵 。 


splom(mtcars[c(1, 3:7)], groups = mtcarsS$cyl, pscales = 0,pch=1:3,col=1:3, 
varnames = c("Miles\nper\ngallon","Displacement\n (cu. in.)", "GrossWMnhorsepower", 
'RearNnaxleMnratio", Weight", "1/4 mileWMntime"), 
key = list(columns = 3, title = "Number of Cylinders",text-list (levels (factor (mtcarsS$Ccyl))), 
points-list (pch-1:3,col-21:3))) 
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图 5-14 ”以 Species 作为 条 件 变 量 的 散 点 图 
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图 5-15 ”修改 点 样式 的 散 点 图 矩阵 
10. 三 维 水 平 图 
要 在 平面 网 格 上 绘制 三 维 数据 ， 对 第 3 维 不 同 值 用 不 同 颜色 来 展示 ， 在 lattice 包 中 ， 可 以 通过 levelplot 函 数 实现 。 


实例 : 以 MASS 扩 展 包 中 的 Cars93 数 据 集 为 例 来 说 明 。 该 数据 集 是 1993 年 在 美国 的 93 辆 汽车 的 销售 记录 ， 共 有 93 行 27 列 。 我 们 先 利用 cor 遂 数 求 出 Cars93 数 据 集中 数值 型 向 量 的 相关 系数 ， 并 利用 
levelplot 函 数 画 出 水 平 图 ， 通 过 scales 函 数 将 x 轴 的 标签 设置 为 握 直 于 x 轴 摆 放 。 通 过 执行 以 下 代码 得 到 图 5-16 所 示 的 三 维 水 平 图 。 


library (lattice) 

data (Cars93, package = "MASS") 

cor.Cars93 «-cor(Cars93[, !sapply(Cars93, is.factor)], use = "pair") 
levelplot(cor.Cars93, scales = list(x = list(rot = 90))) 
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图 5-16 “对 Cats93 数 据 集 绘制 水 平 图 
11. 三 维 等 高 线 图 
如 果 用 lattice 包 绘制 等 高 线 图 ， 可 以 通过 函数 contourplot 来 实现 。 


实例 : 以 火山 数据 集 volcano 为 例 进行 说 明 。 执 行 以 下 代码 得 到 图 5-17 所 示 的 三 维 等 高 线 图 。 


contourplot (volcano, cuts = 20, label = FALSE) 


图 5-17 “对 volcano 数 据 集 绘 制 三 维 等 高 线 图 


12. 三 维 散 点 图 


绘制 三 维 空间 的 点 (其 实 是 将 三 维 空间 投影 到 二 维 空间 ) ， 在 lattice 包 中 ， 可 以 通过 函数 cloud 来 实现 。 
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图 5-18 ”对 itis 绘 制 三 维 散 点 图 


实例 : 以 营 尾 花 数据 集 iris 为 例 进行 说 明 。 执 行 以 下 代码 可 得 到 图 5-18 所 示 的 三 维 散 点 图 。 


par.set «-list(axis.line = list(col = "transparent"),clip = list(panel = "off")) 

cloud(Sepal.Length ~ Petal.Length * Petal.Width,data = iris, groups = Species, cex = .8, 
pch-1:3,col-c ("blue","red","green"), 

screen = list(z = 20, x = -70, y 20), 


par.settings = par.set, scales = list(col = "black"), 
key-list (title-"Species",column-3, 
text-list (levels (iris$Species)), 
points-list (pch-1:3,col-c ("blue","red", "green")))) 


* 代 码 详 见 : 第 5 章 / 示 例 程序 /code/code5-1.R 
13. 三 维 曲面 图 
如 果 想 用 lattice 包 展示 三 维 曲 面 ， 可 以 使 用 孙 数 wireframe 来 实现 。 


实例 : 还 是 以 火山 数据 集 volcano 为 例 进行 说 明 。 执 行 以 下 代码 得 到 图 5-19 所 示 的 三 维 等 高 线 图 。 


E, aspect = c(61/87, 0.4), light.source = c(10,0,10)) 


wireframe (volcano, shade = TRUI 


图 5-19 ”对 volcano 绘 制 三 维 曲面 图 


5.2 ggplot2 包 绘图 工具 


ggplot2 包 是 包含 了 一 套 全 面 而 连贯 的 语法 的 绘图 系统 。 它 弥补 了 R 中 创建 图 形 缺乏 一 致 性 的 缺点 ， 且 不 会 局 限于 一 些 已 经 定义 好 的 统计 图 形 ， 可 以 根据 需要 创造 出 任何 有 助 于 解决 所 遇 到 问题 的 图 形 。 
5.2.1 从 qplot 开 始 
` 功能: 快速 作 图 (quick plot) 。 


` 使 用 格式 : 


qplot (x, y=NULL, http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15770/0EBPS/Text/...,data, facets=NULL, margins=FALS] 
position-list (NULL) ,xlim=c (NA, NA) ,ylim=c (NA, NA), 1og2"" , main-NULL, 
xlab-deparse (substitute (x) ) ,ylab=deparse (substitute (y) ) ,asp=NA) 


E, geom-"auto",stat-list| 


其 中 ，facets 是 图 形 /数据 的 分 面 ，geom 指 图 形 的 几何 类 型 ，stat 指 图 形 的 统计 类 型 ，position 可 对 图 形 或 者 数据 的 位 置 进行 调整 ， 其 他 参数 与 plot 函 数 类 似 。 
下 面 通过 一 些 例子 来 看 看 qplot 消 数 的 工作 原理 。 


实例 : 利用 萤 尾 花 数据 集 iris， 我 们 创建 一 个 以 物种 种 类 为 分 组 的 花 莹 长 度 的 箱 线 图 ， 箱 线 图 的 颜色 依据 不 同 的 物种 种 类 而 变化 。 执 行 以 下 代码 得 到 图 5-20 所 示 的 箱 线 图 。 


library (ggplot2) 
qplot (Species, Sepal.Length,data-iris, geom-"boxplot",fill-Species, 
main=" 依 据 种 类 分 组 的 花 葛 长 度 箱 线 图 ") 


我 们 也 可 以 利用 qplot 函 数 画 出 小 提琴 图 : 只 需要 将 geom 设 置 为 ”violon” ， 并 添加 扰动 以 减少 数据 重 赤 即 可 。 执 行 以 下 代码 可 以 得 到 图 5-21 所 示 的 小 提琴 图 。 


qplot (Species,Sepal.Length,data-iris, geomec("violin","jitter"),fill-Species, 
main=" 依 据 种 类 分 组 的 花 葛 长 度 小 提琴 图 ") 


实例 : 我 们 来 创建 一 个 伦 莹 长度 和 伦 营 宽度 的 散 点 图 ， 并 利用 颜色 和 符号 形状 区 分 物种 种 类 。 执 行 以 下 代码 可 以 得 到 如 图 5-22 所 示 的 散 点 图 。 


qplot (Sepal.Length,Sepal.Width,data-iris, colour-Species, shape-Species, 
main-" 463 KR e163- 95 E 4I S E") 


依据 种 类 分 组 的 花生 长 度 箱 线 图 
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图 5-21 利用 dplot 函 数 绘制 小 提琴 图 


我 们 也 可 以 利用 facets 参 数 绘制 分 面板 散 点 图 ， 并 增加 光滑 曲线 。 执 行 以 下 代码 得 到 图 5-23 所 示 的 分 面板 散 点 图 。 


qplot (Sepal.Length,Sepal.Width,data-iris, geomec("point","smooth"), facets--Species, 
colour=Species，main=" 绘 制 分 面板 的 散 点 图 ") 
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图 5-23 ”利用 dplot 函 数 绘制 分 面板 散 点 图 


5.2.2 ggplot 作 图 


(1) ggplot () 函数 
| 功能: 初始 化 一 个 ggplot 对 象 ， 不 指定 作 图 内 容 。 


使 用 格式 : 


ggplot (data-NULL, http: / /www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15770/OEBPS/Text/...) 


Species 


t 


^ 


setosa 
versicolor 
virginica 


Species 

—- setosa 

— versicolor 
— virginica 


其 中 ，data 指 数据 集 。 

(2) layer () 函数 

` 功能: 创建 一 个 新 的 图 层 。 
使 用 格式 : 


layer (geom, stat,data,mapping,position) 


其 中 ，geom 为 图 形 的 几何 类 型 ，stat 为 图 形 的 统计 类 型 ，data 指 数据 集 ，mapping 指 映射 ，position 可 对 图 形 或 者 数据 的 位 置 进行 调整 。 表 5-4 显 示 了 可 用 的 几何 对 象 函数 。 


几何 对 和 象 函 数 


表 5-4 ”ggplot2 包 的 几何 对 象 函 数 


描述 


geom abline 线 : HERR AHE JHE 

geom area 面积 图 

geom bar 条 形 图 

geom bin2d 二 维 封 箱 的 热 图 

geom blank 空 的 几何 对 象 ， 什么 也 不 画 

geom boxplot fü £x E 

geom contour EISE 

geom crossbar Crossbar 图 (类 似 于 箱 线 图 ， 但 没有 触须 和 极 值 点 ) 
geom density irs HE [s] 


geom density2d 


E 误差 线 (通常 添加 到 其 他 图 形 上 ， 比 如 柱状 图 . 点 图 、 线 图 等 ) 
geom errorbarh AGE iS ER 


geom fregploy 


二 维 密 度 图 


HEEE {类似 于 直方 图 ) 


geom hex 六 边 形 图 (通常 用 于 六 边 形 封 箱 ) 
geom histogram H 7r E 

geom hline KFE 

geom jitter Ei. AZM T EÈ z) 

geom line Ek 

geom linerange KE., HIE HEX de on 

geom path 几何 路 径 ， 由 一 组 点 接 顺 序 链 接 

geom point fd, 

geom pointrange — 3 FER, ， 线 的 中 间 有 一 个 点 【与 Crossbar 图 和 箱 线 图 有 关 ) 
geom polygon 3734 JE 

geom quantile —iHüorjr X EX {来 目 分 位 数 回归 ) 
geom rect 二 维 的 长 方形 

geom ribbon Eir E 

geom rug k 

geom segment x BE 

geom smooth 3E B AE TT E 

geom step brte E 

geom text pano 

geom tile EE ( 即 一 个 个 的 小 长 方形 或 名 边 形 ) 


(3) aes () 函数 
` 功能 : 创建 图 形 属 性 映射 ， 将 数据 变量 映射 到 图 形 中 。 


使 用 格式 : 


aes (x, y, colour,http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15770/0EBPS/Text/...) 


其 中 ， 参 数 x 和 y 是 映射 到 图 形 中 的 数据 变量 ，colour 指 作 图 使 用 的 颜色 的 映射 。 


下 面 通过 一 些 例子 来 体会 ggplot 绘 图 的 工作 原理 。 


实例 : 还 是 以 萤 尾 花 数据 集 为 例 ， 利 用 ggplot 函 数 创建 一 个 以 物种 种 类 为 分 组 参数 的 花 莹 长 度 的 箱 线 图 。 箱 线 图 的 颜色 依据 不 同 的 物种 种 类 而 变化 。 执 行 以 下 代码 得 到 图 5-24 所 示 的 箱 线 图 。 


library (ggplot2) 
ggplot (iris,aes (x-Species, y-Sepal.Length,fill- Puer 
geom boxplot () labs (titJIe=" 依 据 种 类 分 组 的 花 莫 长度 箱 线 图 ") 


依据 种 类 分 组 的 伦琴 长 度 箱 线 图 
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图 5-24 4] M geplot $ Zt 72-5] 46 2x I 
我 们 也 可 以 利用 ggplot 函 数 画 出 小 提琴 图 ， 只 需要 选择 geom violin () ， 并 添加 geom_jitter () 增加 扰动 以 减少 数据 重 晋 。 执 行 以 下 代码 可 以 得 到 图 5-25 所 示 的 小 提琴 图 。 


ggplot (iris,aes (x-Species, y-Sepal.Length,fill-Species))- 
geom violin ()*geom jitter ()+labs (fitle=" 依 据 种 类 分 组 的 花 葛 长 度 小 提琴 图 ") 


(4) 分 面 


我 们 可 以 利用 facet_wrap 国 数 或 facet_grid 国 数 对 图 形 进行 分 面 。 例 如 想 对 lattice 包 中 singer 数 据 集中 不 同 声 部 的 身高 数据 绘制 密度 图 ， 可 以 执行 以 下 代码 ， 得 到 图 5-26 所 示 的 分 面 版 密度 图 。 


data (singer,package-" lattice") 

ggplot (data-singer,aes (x-height,fill-voice.part))-* 
geom density ()+ 

facet grid(voice.part-.) 
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图 5-25 “利用 ggplot 函 数 绘制 小 提琴 图 
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图 5-26 ”利用 ggplot 函 数 绘制 分 面 版 密度 图 


我 们 还 可 以 设置 面板 的 行 数 或 列 数 (通过 facet_ wrap 中 的 nrow 和 ncol 参 数 设置 ) ， 并 可 以 利用 主题 theme 参 数 设置 图 例 。 执 行 以 下 代码 ， 可 以 得 到 图 5-27 所 示 的 4 列 2 行 摆 放 ， 且 没有 图 例 输 出 的 分 面 
板 密度 图 。 


ggplot (data-singer,aes (x-height,fill-voice.part))-* 
geom density ()+ 
facet wrap (~voice.part,ncol=4)+ 


theme (legend.position="none") 
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图 5-27 4) ggplotis 242-814 12 47 da JC A ER 
(5) 颜色 设置 


可 以 使 用 scale_color manualakscale color brewer 函 数 修改 图 形 的 颜色 。 例 如 我 们 想 改 变 图 5-28 所 示 的 散 点 图 的 颜色 ， 可 以 用 以 下 两 种 方式 来 实现 。 


方式 一 : 使 用 scale color manual% žk 

ggplot (iris,aes (x-Sepal.Length, y-Sepal.Width,colour-Species))-* 
scale color manual (values-c ("orange", "olivedrab", "navy"))+ 
geom point (size-2) 方式 二 :使 用 Scale color brewerik 
ggplot (iris,aes (x-Sepal.Length, y-Sepal.Width,colour-Species))-* 
scale color brewer (palette-"Setl")-« 

geom point (size-2) 


(6) ggsave 函 数 
功能: 保存 图 片 。 


.使 用 格式 : 


ggsave (filename, width, height, http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15770/OEBPS/Text/...) 
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图 5-28 利用 geplot 函 数 改变 图 形 颜 色 
其 中 ，filename 为 保存 的 文件 名 与 路 径 ，width 指 图 像 宽度 ，height 指 图 像 高 度 。 


例如 ， 执 行 以 下 命令 后 ， 将 会 在 你 的 当前 工作 目录 下 生成 一 个 名 为 mygraph 的 pdf 图 形 。 


setosa 
* versicolor 
* virginica 


Species 
* setosa 
* versicolor 
* virginica 


ggplot (iris,aes (x-Sepal.Length, y-Sepal.Width,colour-Species))-* 
geom point (size-2 
ggsave (f£ile-"mygraph.pdf",width-5,height-4) 


5.3 ”交互 式 绘图 工具 简介 
前 面 我 们 可 视 化 的 结果 就 是 一 个 静态 的 图 形 ， 所 有 信息 都 一 目 了 然 地 放 在 了 一 张 图 上 。 静 态 图 形 适 合 于 分 析 报 告 等 纸 质 媒介 ， 而 在 网 络 时 代 ， 如 果 要 在 网 页 上 发 布 可 视 化 信息 ， 那 么 动态 的 、 交 互 的 图 


形 更 有 优势 。 在 R 的 环境 中 ， 动 态 交互 图 形 的 优势 在 于 能 和 knitr、shiny 等 框架 整合 在 一 起 ， 迅 速 建立 一 套 可 视 化 原型 系统 。 


5.3.1 rCharts 包 
rCharts 包 的 功能 是 直接 在 R 中 生成 基于 D3 的 Web 页 面 。 由 于 还 处 于 开发 状态 ,该 包 目 前 存放 在 github 代 码 库 中 ， 所 以 需要 特别 的 安装 加 载 方式 。 安 装 此 包 前 ， 需 先 安装 下 列 几 个 包 : 
RCurl, 'RJSONIO, 'whisker, yaml, httpuv devtools。 


rCharts 包 的 安装 代码 如 下 。 


require (devtools) 
install github ('ramnathv/rCharts') 

Si &latticeEJ A EIER — FE, rCharts eA% formula, dataj EARR RAA, Tfi type tAk, PMAR f ÉERDODTEIRER, 

实例 : Sell SS FeECOXUSSEZJPI, HE namek A ESAE (去 掉 单 词 间 的 点 ) ， 然 后 利用 rPlot 函 数 绘制 散 点 图 (type-" point" ) ， 并 利用 颜色 进行 分 组 (color-" Species" ) 。 


执行 以 下 代码 得 到 图 5-29 所 示 的 散 点 图 。 


library (rCharts) 
names (iris)-gsub("NN.","",names (iris)) 
rPlot (SepalLength-SepalWidth|Species,data-iris,color-'Species',type-'point') 
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图 5-29 ”利用 tfPlot 函 数 绘制 散 点 图 
rCharts 支 持 多 个 javascript 图 表 库 ， 每 个 都 有 自己 的 长 处 。 每 一 个 图 表 库 有 多 个 定制 选项 ， 其 中 大 部 分 rCharts 都 支持 。 
(1) npPlot 函 数 
t 实现 其 


NVD3 是 一 个 则 在 建立 可 复 用 的 图 表 和 组 件 的 d3.js 项 目 。 它 提供 了 同样 强大 的 功能 ,但 更 容易 使 用 。 它 可 以 让 我 们 处 理 复杂 的 数据 集 来 创建 更 高 级 的 可 视 化 。 在 rCharts 包 中 提供 了 nPlot 函 数 来 


下 面 以 眼睛 和 头发 颜色 的 数据 (HairEyeColor) 为 例 说 明 nPlot 绘 图 的 基本 原理 。 
实例 : 我 们 按照 眼睛 的 颜色 进行 分 组 (group=”eye”) ， 对 不 同 头发 颜色 人 数 绘制 柱状 图 ， 并 将 类 型 设置 为 柱状 图 组 合 方式 (type=”multiBarChart”) ， 这 样 可 以 实现 分 组 和 功 加 效果 。 执 行 以 


下 代码 得 到 图 5-30 所 示 的 交互 分 组 柱状 图 。 


library (rCharts) 
hair eye male«-subset (as.data.frame (HairEyeColor),Sex--"Male") 


hair eye male[,1]«-pasteO ("Hair",hair eye male[,1]) 
hair eye male[,2]«-paste0 ("Eye",hair eye male[,2]) 
nPlot(Freq-Hair,group-"Eye",data-hair eye male,type-"multil 


BarChart") 


* 代 码 详 见 : 第 5 章 / 示 例 程 序 /code/code5-3.R 
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图 5-30 f]JfnPlotif Zc22-45] 3z 2: 27 ZB RA] 


可 以 通过 图 5-30 右 上 角 选 择 需 要 查看 或 隐藏 的 类 别 (默认 是 全 部 类 别 显 示 的 ) , ba BNA EfSPtEEH TERRAE S ARTE (默认 是 分 组 方式 ) 。 如 果 选 择 Stacked， 就 会 绘制 晋 加 
柱状 图 ， 如 图 5-31 所 示 。 


(2) hPlotggz 
Highcharts 是 一 个 制作 图 表 的 纯 Javascript 类 库 。 它 支持 大 部 分 的 图 表 类 型 : 直线 图 、 曲 线 图 、 区 域 图 、 区 域 曲线 图 、 柱 状 图 、 饼 状 图 、 散 布 图 等 。 在 rCharts 包 中 提供 了 hPlot 函 数 来 实现 。 


实例 : 以 MAss 包 中 的 学 生 调 查 数据 集 survery 为 例 说 明 hPlot 绘 图 的 基本 原理 。 我 们 绘制 学 生 身 高 和 每 分 钟 脉搏 跳动 次 数 的 气泡 图 ， 以 年 龄 变量 作为 调整 气泡 大 小 的 变量 。 执 行 以 下 代码 得 到 图 5-32 所 
示 的 交互 气泡 图 。 
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图 5-31 fjJfnPlotif 2 22-8] ZA 4 Zo 43A ES 


a«-hPlot (Pulse-Height,data-MASS::survey,type-"bubble",title-"Zoomdemo",subtitle-"bubblechart",size-"Age",group-"Exer") 
aS$colors('rgba(223,83,83,.5)','rgba(119,152,191,.5) ', ' rgba (60,179,113, .5) ") 

aSchart (zoomType-"xy") 

aSexporting (enabled-T) 
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图 5-32 fJJfhPlots& XC 22-8] 3x zr 4,76, 


(3) mPloteAzi 


Morris.js 是 一 个 轻 量 级 的 JS 库 ， 能 绘制 漂亮 的 时 间 序 列 线 图 ， 包 括 线 图 、 柱 图 、 区 域 图 、 圆 环 图 。 在 rCharts 包 中 ， 通 过 mpPlot 函 数 实 现 。 


实例 : 以 ggplot2 包 中 的 美国 经 济 时间 序 列 数 据 集 economics 为 例 ， 说 明 mpPlot 函 数 绘图 的 基本 原理 。 执 行 以 下 代码 得 到 如 图 5-33 所 示 的 时 间 序 列 图 。 


data (economics,package-'ggplot2') 
dat«-transform(economics,date-as.character (date)) 
pi«-mPlot (x-"date",y-list ("psavert", 'uempmed"),data-dat,type-'Line', pointSize-0,lineWidth-1) 
pi 


1998-12-01 
psavert 5.2 
uempmed: 6.8 


e 


图 5-33 df] mPlotify Zt 2248] 8] I8] A 7] E] 


我 们 还 可 以 通过 p1$set (type-" Area" ) 将 时 间 序 列 图 变 成 面积 图 ， 结 果 如 图 5-34 所 示 。 


2015-04-01 
psavert: 5.6 
uempmed: 11.7 


图 5-34 ”修改 图 表 类 型 得 到 面积 图 


TD 


1Sset (type-"Area") 


5.3.2 ”recharts 包 


recharts 包 来 源 于 百度 开发 的 国内 顶尖 水 平 的 开源 d3-js 可 视 项 目 Echarts (GithubRepo) 。YangZhou 和 TaiyunWei 基 于 该 工具 开发 了 recharts 包 ， 经 YihuiXie 修 改 后 ， 可 通过 htmlwidgets 传 递 js 参 
数 ， 大 大 简化 了 开发 难度 。 但 此 包 开 发 仍 未 完成 。 为 了 尽快 使 用 ， 开 发 者 基于 该 包 做 了 一 个 函数 echartR (下载 至 本 地 ， 以 后 通过 source 命 令 加 载 ) ， 用 于 制作 基础 Echart 交 互 图 。recharts 包 功能 实现 需要 
R 版 本 在 3.2.0 以 上 。 


fechatts 包 安装 代码 : 


library (devtools) 
install github('yihui/recharts') 


安装 完 后 后 ， 我 们 可 以 将 echartR.R 脚 本 通过 source 命 令 读 入 R 中 ， 然 后 对 营 尾 花 数据 集 绘 制 散 点 图 ， 并 添加 各 物种 种 类 的 回归 线 。 执 行 以 下 代码 后 得 到 图 5-35 所 示 的 散 点 图 。 


source ("~/echartR.R") 

echartR (data-iris,x--Sepal.Length, y--Petal.Length,series--Species, 

type-'scatter',palette-"Set]l", 

markLine-rbind(c(1,'LinearRegCoef','1m',T),c(2,'LinearRegCoef','lm',T), 
c(3,'LinearRegCoef','l1m',T))) 


*echartR4z E: 第 5 章 /示例 代码 /code/echartR.R 


* 代 码 详 见 : 第 5 章 / 示 例 程序 /code/code5-3.R 
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图 5-35 ”利用 recharts 包 绘制 散 点 图 


5.3.3 googleVis& 


googleVis 是 一 种 提供 了 R 和 Google Visualization APl 之 间接 口 的 R 包 。 它 允许 用 户 不 上 传 数据 到 Google 就 可 以 使 用 Google Visulization API 对 数据 进行 可 视 化 处 理 。 不 过 它 的 缺点 是 用 户 必 须 连 网 才 
能 调用 到 图 形 结 果 (国内 还 需要 翻 墙 ) 。 通 过 install.packages ( "googleVis" ) 可 完成 googleVis 包 的 安装 。 


实例 : 我 们 利用 gvisMotionChart 函 数 对 googleVis 自 带 的 数据 集 Fruit 实 现 功能 强大 的 交互 图 。 执 行 以 下 代码 可 得 图 5-36 所 示 的 交互 图 。 


library (googleVis) 
Mi«-gvisMotionChart (Fruits,idvar-"Fruit",timevar-"Year") 
plot (M1) 
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图 5-36 AJ gvisMotionChartzi 4 Z4] z/ 46 2$ X 65 3 3: H8 


5.3.4. htmlwidgetst& 


htmlwidgets 包 是 一 个 专 为 R 语 言 打造 的 可 视 化 JS 库 。 我 们 只 需要 编写 几 行 R 语 言 代码 便 可 生成 交互 式 的 可 视 化 页 面 。 目 前 已 经 有 基于 htmlwidgets 制 作 的 R 包 可 供用 户 直接 使 用 ， 如 下 所 列 。 


- leaflet 互动 地 图 ， 与 OpenStreetMap，Mapbox，andCartoDB 地 图 互动 
: dygraphs 一 一 时 间 序 列 可 视 化 
- plotly 交互 式 可 视 化 ， 可 以 将 ggplot2 图 形 转 化 成 交互 式 的 


* highcharter 一 一 HighchartersJS 图 形 库 的 R 接 口 


- visNetwork 基于 vis.js 网 络 可 视 化 


netwotkD3 一 一 基于 D3JS 网 络 可 视 化 


: d3heatmap 与 D3 交 互 的 热 图 


DT 一 一 交互 式 数据 表格 


交互 式 3D 图 形 


- tthreejs 


: rglwidget ——4& BEWebGL 场景 


: DiagrammeR 创建 流程 图 的 工具 


: metricsgraphics MetticsGraphics.js f] htmlwidget4i: v 


(1) leaflet& 


leaflet 包 是 最 受 欢 迎 的 交互 地 图 可 视 化 的 开源 JavaScript 库 之 一 。 这 个 R 包 很 容易 控制 并 使 用 leafletJS 库 。 它 可 以 交互 式 地 平移 /缩放 ， 使 用 任意 的 地 图 组 合 。 


实例 : 我 们 使 用 leaflet 在 OpenStreetMap 地 图 上 标记 R 语 言 的 诞生 地 一 一 新 西 兰 奥克兰 大 学 。OpenStreetMap 地 图 是 leaflet 默 认 使 用 的 地 图 。 执 行 以 下 代码 得 到 图 5-37 所 示 的 地 图 。 


library (leaflet) 

leaflet ()$»$ 

addTiles () $>% 

addMarkers (1ng=174.768,1at=-36.852,popup="ThebirthplaceofR") 
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图 5-37 4) A leaflet: $ ZA h] 9 X A A 
(2) dygraphs 包 


dygraphs 包 是 一 个 开源 的 Javascript 库 ， 它 可 以 产生 一 个 可 交互 式 的 、 可 缩放 的 时 间 序 列 图 ， 尤 其 适用 于 大 型 数据 集 。dygraphs 包 可 以 实现 dygraphsJs 库 中 交互 的 时 序 图 ， 高 度 可 配置 的 轴 和 系列 显 
示 ， 丰 富 的 互动 功能 ， 上 、 下 区 域 显 示 (如 置信 带 ) ， 各 种 图 形 覆 盖 (如 阴影 、 注 释 等 ) ， 是 R 语 言 作 时 间 序 列 图 的 很 好 选择 。 


实例 : 我 们 利用 某 款 游 戏 在 某 一 天 的 新 增 用 户 在 未 来 365 天 的 用 户 价值 周期 (LTV) 数据 为 例 ， 执 行 以 下 代码 得 到 图 5-38 所 示 的 交互 时 序 图 。 


library (dygraphs) 
LTV«-read.csv("-/LTV.csv") 
LIV.ts«-ts (LTV) 
dygraph (LIV.ts,main-"LTVforecast")$»$ 
dySeries ("V1",label-"LTV",strokeWidth-3)$»$ 
dyOptions (colors-"red",fillGraph-TRUE, flllAlpha-0.4)$»$ 
dyHighlight (highlightCircleSize-5, 
highlightSeriesBackgroundAlpha-0.2, 
hideOnMouseOut-FALSE)$»$ 
dyAxis ("x",drawGrid-FALSE)$»$ 
dyAxis ("y",label-"LTV (LifeTimeValue)")£»$ 
dyRangeSelector () 


* 代 码 详 见 : 第 5 章 / 示 例 程序 /code/code5-3.R 
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图 5-38 ”利用 dygraphs 函 数 绘制 的 交互 时 序 图 


(3) plotly 


plotlyjs 是 开源 的 JavaScript 图 表 库 ， 它 带 来 20 种 图 表 类 型 ,包括 3D 图 表 、 统 计 图 表 和 SVG 地 图 。plotly 是 基于 plotly.js 创 建交 互 式 web 图 表 的 R 包 。plotly 2.0 版 (2015 年 11 月 17 日 ) 需要 最 新 的 
Rstudio。plotly 还 可 以 很 轻松 地 将 ggplot2 图 形 转 化 成 具有 交互 式 效果 的 图 形 。 


实例 : 以 营 尾 花 数据 集 绘 制 散 点 图 ， 执 行 以 下 代码 获得 图 5-39 所 示 的 交互 散 点 图 。 


library (plotly) 

pal«-RColorBrewer::brewer.pal (nlevels (iris$Species),"Set1") 
plot ly(data=iris,x=Sepal.Length,y=Petal.Length,color=Species, 
colors=pal,mode="markers") 
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图 5-39 ”利用 函数 plotly 绘 制 的 交互 散 点 图 


] e 


将 ggplot2 所 作 图 形 存储 为 图 形 对 象 ， 然 后 将 其 转化 成 交互 式 图 形 。 仍 以 莺 尾 花 数据 集 为 例 ， 执 行 如 下 转化 代码 可 获得 图 5-40 所 示 的 交互 散 点 图 。 


p=ggplot (iris,aes (x-Sepal.Length, y-Petal.Length,colour-Species))-* 
scale color brewer (palette-"Setl")-« 
geom point () 

ggplotly (p) 


(4) DT& 
DT 包 使 R 数 据 对 象 可 以 在 HTML 页面 中 实现 过 滤 、 分 页 、 排 序 以 及 其 他 许多 功能 。DT 包 通过 install.packages ("DT") 安装 。 


实例 : 以 况 尾 伦 数 据 集 iris 为 例 ， 绘 制图 5-41 所 示 的 交互 数据 表格 。 


library (DT) 
datatable (iris) 


从 图 5-41 可 知 ， 利 用 DT 包 得 到 的 交互 数据 表格 中 显示 ， 莺 尾 花 数据 集 iris 一 共有 150 条 记录 ， 分 为 10 页 显示 ， 上 默认 每 页 显示 10 条 记录 ; 表格 左上 角 可 以 选择 每 页 的 显示 样本 数 ;还 可 选择 右 下 角 的 页 码 
数 进行 翻 页 ， 还 可 以 实现 对 数据 进行 排序 等 功能 。 输 出 的 表格 数据 左 侧 带 有 行 号 ， 如 果 不 想 输出 行 号 ， 将 参数 rownames 设 置 为 FALSE 即 可 。 
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图 5-40 ”由 geplot2 转 化 的 交互 散 点 图 


Show (L0 z) entries Search:| | 


SepalLength SepalWidth  PetaLength PetalWidth ^ Species 
5.1 5 1.4 0.2 setosa 
4.9 3 1.4 0.2 setosa 
4.7 5.2 ie 0.2 setosa 
4.6 3.] ].5 0.2 setosa 

2 3.6 1.4 0.2 setosa 
5.4 3.9 1.7 0.4 setosa 
4.6 3.4 1.4 0.3 setosa 

5 3.4 1.5 0.2 setosa 
4.4 2.9 1.4 0.2 setosa 
4.9 Sud 1:5 0.1 setosa 


Showing 1 to 10 of 150 entries Previous 2 3 4 5 .. 15 Next 
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图 5-41 利用 DT 包 得 到 交互 数据 表格 
(5) networkD3 包 
networkD3 包 可 实现 绘制 D3JavaScript 的 网 络 图 的 功能 。networkD3 包 通过 install.packages ("networkD3") 进行 安装 。 下 面 通过 两 个 例子 来 体验 利用 networkD3 包 绘制 网 络 图 的 交互 效果 。 


实例 : 利用 simpleNetwork 函 数 绘制 一 个 简单 的 网 络 图 。 执 行 以 下 代码 得 到 图 5-42 所 示 的 简单 网 络 图 。 


library (networkD3) 

Src«-c ("A" j "AH ; "RU j "RH ; "p" 7 "p" ; DON 5 die 7 "p" ) 
target«-c (“BS ; umn " BD" ; Wig s "EM " "p" " NM š "pg" a "Ww I "T ) 
networkData«-data.frame (src,target) 
simpleNetwork (networkData, zoom-T) 


图 5-42 ”利用 simpleNetwotk 函 数 绘制 简单 网 络 图 


实例 : 利用 forceNetwork 函 数 绘制 力 导向 图 。 力 导向 算法 假设 不 同 的 点 是 空间 的 球体 ， 任 意 球 之 间 都 具有 引力 和 斥 力 ， 通 过 力 的 相互 作用 ， 最 终 达到 一 种 平衡 。 拖 动 中 间 的 图 里 的 任意 节点 ， 整 个 网 络 
就 会 被 拖 动 ， 并 达到 新 的 平衡 位 置 。 执 行 以 下 代码 得 到 图 5-43 所 示 的 力 导向 图 。 


~ {m Pontmercy 


| 4A 


» 


esi 


图 5-43 #4) H forceNetwork i 3k 22-49] 7] 35-18] E] 


data (MisLinks) 

data (MisNodes) 

forceNetwork (Links-MisLinks,Nodes-MisNodes, 

Source-"source",Target-"target", 
Value-"value",NodeID-2"name",Group- 


"group",opacity-0.8) 


5.3.5 shiny 包 
Shiny 是 R 中 的 一 种 Web 开 发 框架 。 它 的 功能 使 R 的 使 用 者 不 必 太 了 解 css、js， 只 需 了 解 一 些 html 的 知识 就 可 以 快速 完成 web 开 发 。shiny 包 还 集成 了 bootstrap、jquery、ajax 等 特性 ， 极 大 地 解放 了 作 
为 统计 语言 的 R 的 生产 力 ， 使 得 R 使 用 者 中 的 非 传统 程序 员 不 必 依 赖 于 前 端 、 后 端 工程 师 ， 自 己 依照 业务 就 可 以 完成 一 些 简单 的 数据 可 视 化 工作 ， 快 速 验证 想法 的 可 靠 性 。 


Shiny 应 用 包含 两 个 基本 的 组 成 部 分 : 一 个 是 用 户 界面 脚本 (auser-interfacescript) ， 另 一 个 是 服务 器 脚本 (aserverscript) 。 


(JR PR (ui) 脚本 控制 应 用 的 布局 与 外 表 ， 它 定义 在 一 个 称 作 ui.R 的 源 脚本 中 。 


. 服务 器 (server) 脚本 ”包含 构建 应 用 所 需要 的 一 些 重要 指示 ， 它 定义 在 一 个 称 作 server.R 的 源 脚 本 中 。 


其 应 用 结构 如 图 5-44 所 示 。 


服务 端 


server.R 


图 5-44 shiny 包 应 用 基本 结构 


(1) ui.R 脚 本 


ui.R 脚 本 使 用 shinyUl 宣 布 用 户 界 面 定义 ， 使 用 函数 fluidPage () 显示 用 户 浏 览 器 窗口 ， 通 过 fluidPage () 函数 设置 元 素 titlePanel 和 sidebarLayout 对 标题 和 页 面 图 形 布局 。 其 中 : sidebarLayout 包 
括 网 页 侧 栏 输入 设置 和 主 面板 输出 两 部 分 界面 ;sidebarPane| 定 义 侧 栏 的 控制 选项 ; mainPane| 定 义 主 面板 ， 存 储 主要 输出 结果 。 执 行 下 面 ui.R 可 得 到 图 5-45 所 示 的 一 个 基本 的 网 页 界面 布局 。 


shinyUI (fluidPage( 


titlePanel("title panel"), 
sidebarLayout( 
sidebarPanel( "sidebar panel"), 


mainPanel ("main panel") 
) 
)) 


(2) server.R 脚 本 


server.R 脚 本 使 用 shinyServer 宣 布 服 务 脚本 函数 的 定义 。 这 里 使 用 一 个 未 定义 的 函数 来 放置 R 人 代码， 函数 包括 input 和 output 两 个 参数 。input 和 output 是 两 个 列表 ，input 定 义 ui.R 中 控制 元 件 的 输入 参 
数 ，output 定 义 ui.R 中 的 输出 结果 。 执 行 下 面 sever.R 在 shiny 上 应 用 得 到 图 5-46 所 示 的 一 个 简单 的 直方 图 。 


http://127.0.0.1:6913 | 4 Open in Browser | @ 


title panel 


main panel 
sidebar panel 


图 5-45 ”基本 的 网 页 界面 布局 
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图 5-46 ”控制 条 数 的 直方 图 


library (shiny) 
shinyServer (function (input, output) { 
output$distPlot <- renderPlot ({ 


x <- faithful[, 2] 
bins <- seq(min(x), max (x), length.out = input$bins + 1) 
hist (x, breaks = bins, col = 'darkgray', border = 'white') 


)) 


相应 的 ui.R 如 下 : 


library (shiny) 
shinyUI (fluidPage( 


titlePanel ("Old Faithful Geyser Data"), 
sidebarLayout( 
sidebarPanel( 
sliderInput("bins", "Number of bins:", min = 1,max = 50,value = 30)), 
mainPanel( 
piotOutput ("distPlot"))))) 


用 户 可 以 在 一 个 目录 中 保存 一 个 ui.R 文 件 和 server.R 文 件 来 创建 一 个 Shiny 应 用 。 每 一 个 应 用 都 需要 自己 独特 的 存放 位 置 。 运 行 应 用 的 方法 是 在 函数 runApp 中 置 入 目录 名 称 。 例 如 应 用 目录 名 称 为 
myapp， 且 放 在 D 盘 目录 下 ， 那 么 键入 以 下 代码 可 以 执行 应 用 。 


library (shiny) 
runApp ("D: /myapp") 


运行 完成 后 自动 生成 一 个 网 页 显示 结果 。 也 可 以 将 ui 和 server 代 码 写 在 一 个 脚本 内 ， 通 过 shinyApp 执 行 该 app。 运 行 以 下 脚本 将 得 到 图 5-47 所 示 的 一 个 简单 的 Web 版 直方 图 。 


library (shiny) 

ui«-fluidPage( 

numericInput (inputlId-"n", 
"Samplesize",value-25), 
piotOutput (outputId-"hist") 
) 


server«-function (input, output) { 
output$hist«-renderPlot ({ 
hist (rnorm(input$n)) 


)) 


} 


shinyApp (ui-ui,server-server) 


Sample size 
23 


Histogram of rnorm(input$n) 


0 


Frequency 
4 


0 
rnorm(input$n) 


图 5-47 利用 shiny 包 搭建 Web 版 直方 图 


(3) shinydashboard 扩 展 包 


shinydashboard 扩 展 包 为 shiny 框 架 提供 了 BI 框架 。 一 个 dashboard 由 三 部 分 组 成 : 标题 栏 、 侧 边栏 、 主 面板 ， 通 过 install.packages ( "shinydashboard" ) 完成 安装 。 执 行 以 下 脚本 可 以 得 到 
shinydashboard 的 基本 框架 ， 如 图 5-48 所 示 。 


library (shiny) 

library (shinydashboard) 

ui«-dashboardPage( 
dashboardHeader(), 
dashboardSidebar(), 
dashboardBody () 
) 

server«-function (input,output)í] 

shinyApp (ui, server) 


图 5-48 shinydashboard 的 基本 框架 


接 下 来 ， 我 们 将 前 面 所 学 的 高 级 绘图 工具 结合 Shinyweb 开 发 框架 ， 一 步 步 搭建 数据 可 视 化 平台 demo。 先 创建 新 文件 夹 myappl1]， 然 后 在 myapp 文 件 夹 里 面 创建 两 个 脚本 ui.R 和 server.R， 用 来 存放 客 
户 端 和 服务 端的 脚本 。 


可 以 将 ui 和 server 代 码 写 在 一 个 脚本 内 ， 通 过 shinyApp 执 行 该 app。 运 行 以 下 脚本 将 得 到 一 个 简单 的 Web 版 直方 图 。 


#server .Rt 
output$mygraph<-renderPlot ({ 
graph function (formula,data-,:::) 
}) 
#ui.R# 
plotOutput ("mygraph") 


一 


* 注 释 : shiny 包 小 节 的 图 片 ， 从 图 5-50 至 图 5-58， 难 图 自 myapp 文 件 夹 的 运行 结果 ， 为 方便 阅读 ， 不 再 对 代码 一 一 珊 述 。 如 需 查 看 代码 ， 请 查阅 : 第 5 章 / 示 例 程序 /code/myapp 中 的 ui.R 和 server.R 脚 本 。 
对 于 lattice 包 和 ggplot2 绘 制 的 图 形 ， 我 们 在 server.R 中 用 renderPlot () 浮 数 将 图 形 赋予 输出 对 象 mygraph， 并 在 ui.R 中 用 plotOutput ("mygraph") 将 图 形 输出 到 Web 中 。 


如 图 5-49 所 示 ， 在 网 页 上 输出 Iattice 阔 数 绘制 的 散 点 图 和 矩阵 和 三 维 曲面 图 。 


数据 可 视 化 平台 demo 


lattice 绘制 展示 lattice 包 绘制 散 点 图 矩阵 lattice 包 绘制 三 维 图 


Number of Cylinders 


per 
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Scatter Plot Matrix 


图 5-49 ”lattice 结 合 shiny 输 出 Web 页 面 


如 图 5-50 所 示 ， 在 网 页 上 输出 ggplot2 冰 数 绘制 的 箱 线 图 和 核 密 度 图 。 
数据 可 视 化 平台 demo 
lattice 绘制 展示 


ggplot2 包 绘 制 的 箱 线 图 ggplot2 包 绘 制 的 核 密度 图 
ggplot2 绘制 展示 
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图 5-50 ggblot2 结 合 shiny 输 出 Web 页 面 


对 于 模型 结果 可 视 化 ， 也 可 以 使 用 这 种 方式 把 可 视 化 结果 在 网 页 上 输出 。 我 们 对 关联 规则 和 kmeans 聚 类 结果 进行 了 可 视 化 ， 并 增加 了 选择 栏 和 数字 输入 选项 来 调整 关联 规则 可 视 化 的 方法 和 聚 类 的 K 
值 。 如 图 5-51 所 示 ， 关 联 规则 可 视 化 中 的 方法 选择 的 是 "graph"，K 均 值 聚 类 的 K 值 选择 的 是 3， 结 果 如 下 所 示 。 


关联 规则 可 视 化 kmeans 结果 可 视 化 
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图 5-51 模型 结果 可 视 化 (1) 


如 果 method 选 择 "matrix3D"，K 值 取 4 时 ， 将 得 到 如 图 5-52 所 示 的 结果 。 
关联 规则 可 视 化 kmeans 结果 可 视 化 
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图 5-52 ”模型 结果 可 视 化 (2) 


更 一 般 地 ， 可 以 利用 R 的 图 形 参数 设置 浮 数 par 来 自 定义 一 幅 图 形 的 多 个 特征 (点 样式 、 背 景色 、 页 面 布局 等 ) ， 如 图 5-53 所 示 ， 我 们 用 plot 函 数 生成 了 用 于 评价 线性 回归 模型 拟 合 情况 的 四 幅 图 形 ， 通 
过 par 参 数 设 置 四 幅 图 形 按 照 2 行 2 列 摆 放 ， 将 点 样式 设置 为 '*"， 图 形 背 景 颜色 设置 为 "aliceblue"， 最 后 通过 renderPlot 和 plotOutput 函 数 把 生成 好 的 图 形 输出 到 网 页 。 


#server .Rt# 

output$īIm.fit<-renderPlot ({ 
fit<-lm(Sepal.Length~Sepal .Width,data=iris[,1:4]) 
par (mfrow=c (2,2),pch="*", bg="aliceblue") 

lot(fit) 


i.Rd 
lotOutput ("lm.fit") 
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图 5-53 ”评价 线性 模型 拟 合 情 况 可 视 化 


对 于 rCharts 包 绘制 的 图 形 ， 我 们 在 server.R 中 用 renderChart () 函数 将 图 形 赋 予 输出 对 象 mygraph， 并 在 ui.R 中 用 showOutput ( "mygraph" ) 将 图 形 输出 到 Web 中 。 形 式 如 下 (以 hPlot 函 数 为 
例 ) : 


#server.R# 
output$mygraph<-renderChart ({ 
p1<-hPlot (formula, data, type,…) 
piSaddParams (dom="mygraph") 

return (p1) 

}) 

#ui.R# 

showOutput ("mygraph", "highcharts") 


&BE5-54Bhzn, RIENA T nPloteRS BAERE. 


#server.R# 

output$mychart1<-renderChart ({ 

hair eye male<-subset (as.data.frame (HairEyeColor),Sex--"Male") 
hair eye male[,1]«-paste0 ("Hair",hair eye male[,1]) 

hair eye male[,2]«-paste0 ("Eye",hair eye male[,2]) 
pl«-nPlot (Freq-Hair,group-"Eye",data-hair eye male,type-"multiBarChart") 
piSchart (color=c ('brown', 'blue','4594c26', 'green')) 

piSaddParams (dom-"mychart]1") 

return (pl) 

}) 

#ui.R# 

showOutput ("mychart1", "nvd3") 
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图 5-55 ”PhPlot 函 数 绘制 的 交互 气泡 图 Web 展 示 


对 于 DT 包 制 作 的 数据 表格 ， 我 们 在 server.R 中 用 renderDataTable () 函数 将 表格 赋予 输出 对 象 mytable， 并 人 在 ui.R 中 用 dataTableOutput ( "mytable" ) 将 图 形 输出 到 web 中 。 形 式 如 下 : 


#server.R# 
output$mytable<-renderDataTable ({ 
datatable (data) 

}) 
#ui.R# 
dataTableOutput ("mytable") 


如 图 5-56 所 示 ， 我 们 在 网 页 上 输出 两 个 表格 的 数据 。 
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图 5-56 ”DT 包 结 合 shiny 输 出 的 网 页 交互 表格 


对 于 networkD3 包 制作 的 网 络 图 ， 我 们 在 server.R 中 用 renderForceNetwork () 函数 将 表格 赋予 输出 对 象 mygraph， 并 在 ui.R 中 用 forceNetworkOutput (“mygraph”) 将 图 形 输出 到 web 中 。 形 
式 如 下 : 


#server .Rt# 
output$mygraph<-renderForceNetwork ({ 
forceNetwork (:…) 


#ui.R# 
forceNetworkOutput ("mygraph") 


如 图 5-57 所 示 ， 我 们 在 网 页 上 展示 力 导 向 网 络 图 。 


图 5-57 ”netwotkD3 包 结合 shiny 输 出 的 力 导 向 网 络 图 


[1] Windows 下 shiny 应 用 出 现 中 文字 符 应 对 办 法 详 见 http://shiny.rstudio.com/gallery/unicode-charactets.html 


DA 才 
本 章 中 ， 我 们 学 习 了 两 个 常用 的 高 级 绘图 扩展 包 。 首 先是 lattice 包 ， 它 提供 了 一 个 可 创建 栅栏 图 的 系统 ， 然 后 是 ggplot2 包 ， 它 有 一 个 全 面 的 图 形 语法 。 两 者 都 可 以 创建 美观 且 有 意义 的 数据 可 视 化 图 
形 。 


随后 ， 我 们 探究 了 一 些 可 实现 图 形 动态 交互 的 软件 包 ， 包 括 rCharts、recharts、googleVis、htmlwidgets 等 包 。 利 用 这 些 包 ， 我 们 可 以 在 图 形 中 直接 与 数据 进行 交互 ， 更 好 地 实现 了 数据 探索 和 数据 
可 视 化 。 


最 后 ， 我 们 讲解 了 shiny 包 的 Web 开 发 框架 原理 ， 让 读者 可 以 快速 完成 Web 开 发 。 并 结合 了 高 级 绘图 包 开 发 数据 可 视 化 demo 平 台 ， 实 现 更 好 的 数据 交互 及 展示 体验 。 


55 上 机 实验 


1. 实 验 目的 
了解 lattice 包 绘图 特点 ， 掌 握 lattice 包 绘图 方法 。 
.了解 ggplot2 包 绘图 特点 ， 掌 握 ggblot2 包 绘图 方法 。 


了 解 R 语 言 中 的 各 种 交互 式 绘图 工具 ， 掌 握 shiny 包 的 绘图 方法 。 


表 5-5 是 某 银 行 在 降低 贷款 拖欠 率 的 数据 pankloan 的 示例 表 。 
表 5-5 银行 贷款 拖欠 率 数据 


age debt rate | credit card debt | orther debt | default 


4] 


* 数 据 详 见 : 第 5 章 / 上 机 实验 /data/bankloan.csv 
用 lattice 包 和 ggplot2 包 分 别 作 图 ， 探 索 不 同 特征 的 人 群 的 收入 与 负债 之 间 的 关系 。 
用 lattice 包 和 ggplot2 包 分 别 作 图 ， 探 索 影响 银行 客户 违约 的 因素 。 
- 将 所 做 图 形 结合 shiny， 搭 建 银行 贷款 拖欠 数据 可 视 化 平台 demo。 
3. 实 验方 法 与 步骤 
1) 数据 预 处 理 ， 调 整数 据 类 型 ， 将 年 龄 、 工 龄 分 组 ; 
2) 分 别 用 lattice 包 和 ggplot2 包 画 不 同年 龄 、 教 育 和 工龄 的 客户 收入 与 负债 的 直方 图 和 密度 分 布 曲线 ; 
3) 分 别 用 lattice 包 和 ggplot2 包 画 不 同年 龄 、 教 育 和 工龄 的 客户 收入 与 负债 的 散 点 图 ， 并 添加 回归 线 ; 
4) 分 别 用 lattice 包 和 ggplot2 包 画 不 同年 龄 、 教 育 和 工龄 的 客户 违约 与 否 的 条 形 图 ; 
5) 分 别 用 lattice 包 和 ggplot2 包 画 客 户 的 收入 、 负 债 和 违约 与 否 的 散 点 图 ， 并 添加 logistic 回 归 线 ， 


6) 结合 2) ~5) 所 做 图 形 创建 脚本 ui.R 和 server.R， 拱 建 数据 可 视 化 平台 demo。 


1) 如 何 将 想 要 的 数据 信息 用 图 形 呈 现 出 来 ? 
2) 如 何 选 择 合适 的 作 图 工具 完成 所 需 图 形 ? 


3) 如 何 让 我 们 的 图 形 生 动 起 来 ? 


第 二 部 分 IRM HA f 


图 第 6 章 分 类 与 预测 
BSc REX" 
图 第 8 章 ”关联 规则 
Boc 智能 推荐 


国 第 10 章 ”时 间 序 列 


第 6 草 分 类 与 预测 


6.1 回归 分 析 
回归 分 析 是 一 种 预测 性 的 建 模 技术 ， 它 研究 的 是 因 变 量 (目标 ) 和 自 变量 (预测 器 ) 之 间 的 关系 。 这 种 技术 通常 用 于 预测 分 析 以 及 发 现 变 量 之 间 的 因果 关系 。 例 如 ， 研 究 司机 的 鲁莽 驾驶 与 道路 交通 事 
故 数量 之 间 的 关系 ， 最 好 的 方法 就 是 回归 。 
使 用 回归 分 析 的 好 处 如 下 : 
" 表明 自 变量 和 因 变 量 之 间 的 显著 关系 ; 
表明 多 个 自 变 量 对 一 个 因 变 量 的 影响 强度 。 


回归 分 析 也 允许 我 们 去 比较 那些 衡量 不 同 尺 度 的 变量 之 间 的 相互 影响 ， 如 价格 变动 与 促销 活动 数量 之 间 的 联系 。 这 些 有 利于 帮助 市 场 研究 人 员 、 数 据 分 析 人 员 以 及 数据 科学 家 排除 并 估计 出 一 组 最 佳 的 
变量 ， 用 来 构建 预测 模型 。 


回归 建 模 : 在 R 中 ， 常 用 的 拟 合 线性 回归 模型 的 函数 是 Im 函数 ， 广 义 线性 回归 模型 常用 的 函数 为 glm 函 数 。 除 了 Im () füglm () ， 表 6-1 还 列 出 了 其 他 一 些 对 回归 分 析 有 用 的 函数 。 拟 合 模型 后 ， 将 这 
些 函 数 应 用 于 Im () 和 glm () 返回 的 对 象 ， 可 以 得 到 更 多 额外 的 模型 信息 。 


表 6-1 回归 分 析 常 用 函数 


函数 Ri 
summary(model) 展示 拟 合 模 型 的 详细 结 
coefficients(model) 列 出 拟 合 模型 的 模型 参数 ( 截 距 项 和 斜率) 
(523) 
函数 用 途 
confint(object, parm, level = 网 "(à - ! 
0.95...) 提供 模型 参数 的 置信 区 间 (RA 95%) 
fitted(model) 列 出 拟 合 模型 的 拟 合 值 
anova(model) 生成 一 个 拟 合 模型 的 方差 分 析 表 ， 或 比较 两 个 或 更 多 拟 合 模型 的 方差 分 析 表 
vcov(model) Jy HUBER] BT 2558 [e 
residuals(model) 列 出 模型 的 残 差 
AlIC(model) 输出 赤 池 信息 统计 量 
predict(model) 用 拟 合 模型 对 新 的 数据 集 预 测 对 应 的 预测 值 
plot(model) 生成 评价 拟 合 模型 的 诊断 图 


接 下 来 将 详细 介绍 Im () 函数 和 glm () 函数 的 功能 和 用 法 。 
(1) Im () 函数 
功能: 拟 合 回归 模型 和 进行 方差 分 析 。 


.使 用 格式 : 


lm(formula, data, subset, weights, na.action, method = "qr", model = TRUE, x = FALSE, y = FALSE, qr = TRUE, singular.ok = TRUE, contrasts = NULL, offset, http://www.hzcourse.cc 


其 中 ，formula 指 要 拟 合 的 模型 形式 ，data 是 一 个 数据 框 ， 包 含 了 用 于 拟 合 模型 的 数据 。formula 中 常用 的 符号 见 表 6-2。 


表 6-2 表达 式 中 常用 符号 


符号 符号 用 途 
分 隅 符号 ， 左 边 为 啊 应 变量 ， 右 边 为 解释 变量 。 例 如 ， 要 通过 x、z 和 w Bu y, 代码 为 y~ x 
tztw 
* 4] br 191 | A5 t 


表示 预测 变量 的 交互 项 。 例 如 ， 要 通过 x、z 及 x 与 z 的 交互 项 预测 y， 代 码 为 y~x+z+x:z 
表示 所 有 可 能 交互 项 的 简洁 方式 。 代 码 y~ x * z* w 可 展开 为 y~x+Z+w+x:z+x:w+Z:wt+ 


X:Z:W 

表示 交互 项 达到 某 个 次 数 。 代 码 y~ (x+z+w)^2 可 展开 为 y~X+Zz+W+X:Z+X:W 十 Z:W 

表示 包含 除 因 变量 外 的 所 有 变量 。 例 如 ， 硅 一 个 数据 框 包 含 变量 x、y、z 和 w， 代 码 y ~ .可 

展开 为 y~x+z+w 

减 号 ， 表 示 从 等 式 中 移 除 某 个 变量 。 例 如 ，y ~ (x+z+w)^2-x:w 可 展开 为 yY~X+Z+W 二 XI:Z 
+ Z:W 

-] 删除 截 距 项 。 例 如 ， 表 达 式 y~x-1 拟 合 y 在 x 上 的 回归 ， 并 强制 直线 通过 原点 

10 ARHI A BER EREE S PIIL < 例如 ,y~x+(z+w)^2 将 展开 为 y~Xx+z+w+z:w。 相 反 ， 
代码 y~x+I((z+w)^2) 将 展开 为 y~x+h,h 是 一 个 由 z 和 w 的 平方 和 创建 的 新 变量 

function 可 以 在 表达 式 中 用 的 数学 滑 数 。 例 如 ，log(y) ~x+z+w 表示 通过 x、z 和 w 来 预测 log(y) 


实例 : 利用 数据 集 women 建 立 简 单线 性 回归 模型 。 


代码 清单 6-1 ”数据 集 women 建 立 线性 回归 模型 代码 


## 线 性 回归 模型 

data (women) 

lm.model <- lm( weight ~ height -1, data = women) # 建 立 线性 回归 模型 

summary (1m.model) # 输 出 模型 的 统计 信息 

coefficients (lm.model) # 输 出 参数 估计 值 

confint(lm.model, parme"speed",level = 0.95) #parm 缺 省 则 计算 所 有 参数 的 置信 区 间 


fitted(1m.model) # 列 出 拟 合 模型 的 预测 值 

anova (1m.model) # 生 成 一 个 拟 合 模型 的 方差 分 析 表 
vcov (1m.model) # 列 出 模型 参数 的 协 方差 矩阵 
residuals (lm.model) # 列 出 模型 的 残 差 

AIC (1m.model) # 输 出 AIC 值 

par (mfrow-c (2,2)) 

plot (lm.model) # 生 成 评价 拟 合 模型 的 诊断 图 


运行 代码 清单 6-1 可 以 得 到 部 分 输出 结果 如 下 : 


> summary (lm.model) # 输 出 模型 的 统计 信息 


Call: 
lm(formula = weight ~ height, data = women) 
Residuals: 
Min 1Q Median 3Q Max 
-1.7333 -1.1333 -0.3833 0.7417 3.1167 


Coefficients: 


Estimate Std. Error t value Pr (>|t|) 


(Intercept) -87.51667 5.93694 -14.74 1 .71e-09 *** 
height 3.45000 0.09114 37.85 1.09e-14 *** 
Signif. codes: 0 '***' 0.001 '*** 0,01 '*' Q.05 *,'" OL rI 
Residual standard error: 1.525 on 13 degrees of freedom 
Multiple R-squared: 0.991, Adjusted R-squared: 0.9903 
F-statistic: 1433 on 1 and 13 DF, p-value: 1.091e-14 

> AIC (1m.model) # 输 出 赤 池 信息 统计 量 

[1] 59.08158 


Estimate, Std.Error, t value, Pr (»|t|) 分 别 表示 : 估 值 、 标 准 误差 、T 值 、P 值 。 


height 的 回归 系数 (3.45) 显著 不 为 0 (p<0.001) ， 表 明 身 高 每 增加 一 个 单位 ， 体 重 将 预期 增加 3.45 个 单位 。Multiple R-squared 和 Adjusted R-squared 这 两 个 值 ， 常 被 称 为 “ 拟 合 优 度 ” 和 “修正 
的 拟 合 优 度 ”， 是 指 回 归 方 程 对 样本 的 拟 合 程度 ， 越 接近 “1”， 拟 合 程度 越 高 。 标 准 化 残 差 (1.525) 则 可 以 认为 是 模型 用 身高 预测 体重 的 平均 误差 。F-statistic 为 F 统 计量 ， 用 于 判断 方程 整体 的 显著 性 检 
验 ， 其 P 值 明显 小 于 0.05， 表 示 方 程 在 P=0.05 的 水 平 上 通过 显著 性 检验 。 


Residuals vs Fitted Normal Q-Q 
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图 6-1 回归 模型 诊断 图 


图 6-1 为 模型 的 回归 诊断 图 。 这 里 左上 图 是 残 差 对 拟 合 值 作 图 ， 若 因 变 量 与 自 变量 线性 相关 ， 那 么 残 差 值 与 预测 (MWE) 值 就 没有 任何 系统 关联 ， 本 例 的 残 差 和 拟 合 值 图 可 以 清楚 地 看 到 一 个 曲线 关系 ， 
这 暗示 着 可 能 需要 对 回归 模型 加 上 一 个 二 次 项 。 右 上 图 为 残 差 QQ 图 ， 用 以 观察 残 差 是 否 符合 正 态 分 布 。 若 满足 正 态 假设 ， 那 么 图 上 的 点 应 该 落 在 呈 45" 的 直线 上 ; 左下 图 是 标准 化 残 差 对 拟 合 值 ， 用 于 判断 
模型 残 差 是 否 等 方差 。 若 满足 不 变 方差 假设 ， 水 平 线 周围 的 点 应 该 随机 分 布 ; 右 下 图 是 残 差 与 杠杆 图 ， 虚 线 表 示 的 cooks 距 离 等 高 线 ， 从 图 形 可 以 鉴别 出 离 群 点 、 高 杠杆 值 点 和 强 影响 点 。 


(2) gim () RAŽI 
: 功能 : 拟 合 广 义 线 性 回归 模型 。 


“ 使 用 格式 : 


gim(formula, family = gaussian, data, weights, subset, na.action, start = NULL, etastart, mustart, offset, control = list (http://www.hzcourse.com/resource/readBook?path-/openre 


表 6-3 ”参数 family 的 选项 及 各 选项 对 应 的 连接 函数 


族 名 关联 函数 


binomial logit, probit, log, cloglog 
gaussian identity, log, inverse 

gamma identity, inverse, log 
inverse.aussian |/mu^2, identity, inverse, log 


Wk 关联 函数 


poisson identity, log, sqrt 
quasi logit, probit, cloglog, identity, inverse, log, l/mu^2, sqrt 
常用 的 family: 


binomal (link='logit') ， 响 应 变量 服从 二 项 分 布 ， 连 接 函数 为 logit， 即 logistic 回 归 ; 
binomal (linkz'probit') ， 响 应 变量 服从 二 项 分 布 ， 连 接 函 数 为 probit; 

poisson (linkz'identity') ， 响 应 变量 服从 泊 松 分 布 ， 即 泊 松 回归 。 

| 实例 : 结婚 时 间 、 教 育 、 宗 教 等 其 他 变量 对 出 轨 次 数 的 影响 。 


代码 清单 6-2 ”逻辑 回归 代码 


THEE BEL )a 7 

data (Affairs,package-" AER") 

# 由 于 变量 affairs 为 正 整数 ， 为 了 进行 Logistic 回 归 先 要 将 其 转化 为 二 元 变量 。 
AffairsSynaffair[AffairsS$affairs > 0] <- 1 

AffairsSynaffair[AffairsSaffairs == 0] <- 0 

AffairsSynaffair <- factor(AffairsSynaffair, levels-c(0,1),labels-c("No","Yes")) 


i x Logistic jg 
model.L«-gim(ynaffair-age-yearsmarriedtreligiousness +rating, data-Affairs, family-binomial (link-logit)) 
summary (model. L) # 展 示 拟 合 模 型 的 详细 结果 


predictdata<-data.frame (Affairs[,c("age","yearsmarried","religiousness", "rati-ng")]) 
# 由 于 拟 合 结果 是 给 每 个 观测 值 一 个 概率 值 ， 下 面 以 0.4 作 为 分 类 界限 

predictdata$y- (predict (model.L,predictdata, type-"response")»0.4) 

predictdata$y [which (predictdata$y--FALSE)]-"No" # 把 预测 结果 转换 成 原先 的 值 (Yes No) 
predictdata$y [which (predictdata$y--TRUE) ]="Yes" 

confusion-table (actual-AffairsSynaffair,predictedclass-predictdata$y) # 混 淆 矩阵 
(sum (confusion) -sum (diag (confusion)))/sum(confusion) # 计 算 错 判 率 


运行 代码 清单 6-2 得 到 部 分 结果 如 下 : 


> summary (model.L) # 展 示 拟 合 模型 的 详细 结果 

Call: 

glm (formula = ynaffair ~ age + yearsmarried + religiousness + 
rating, family = binomial, data = Affairs) 

Deviance Residuals: 
Min TO Median 3Q Max 

-1.6278 -0.7550 -0.5701 -0.2624 2.3998 

Coefficients: 


Estimate Std. Error z value Pr(>|z|) 


(Intercept) 1.93083 0.61032 3.164 0.001558 EE 
age -0.03527 . 0.01736 224.032 0.042127 * 
yearsmarried 0.10062 0.02921 3.445 0.000571 EEK 
religiousness -0.32902 0.08945 -3.678 0.000235 wes 
rating -0.46136 0.08884 -5.193 2.06e-07 KN 
Signif. codes: (O0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 


(Dispersion parameter for binomial family taken to be 1) 
Null deviance: 675.38 on 600 degrees of freedom 

Residual deviance: 615.36 on 596 degrees of freedom 

AIC: 625.36 

Number of Fisher Scoring iterations: 4 

> confusion 

Predicted class 


actual No Yes 

No 412 39 

Yes 105 45 

> (sum(confusion)-sum(diag (confusion)))/sum(confusion) 4;Fj3Eb46J] d 
[1] 0.2396007 


predict 函 数 是 R 最 常用 的 模型 预测 函数 ， 调 用 格式 为 : 


predict (model, newdata, type) 


ANDE 


其 中 ，newdata 为 数据 框 ， 数 据 框 中 包含 模型 中 的 自 变 量 。 对 于 模型 model.L，newdata 中 需要 包含 age、yearsmarried、religiousness 和 rating 4 个 变量 ， 否 则 不 能 进行 预测 。 

predict 阔 数 中 type 的 参数 在 不 同 的 模型 中 有 不 同 的 选项 。 对 于 使 用 glm 函 数 建立 的 模型 ，type=c ('link", "response", "terms") ， 在 logistics 回 归 中 ， 常 用 的 参数 是 "response"， 预 测 结果 返回 ， 预 
测 的 概率 数值 在 0 到 1 之 间 。 

1. 回 归 诊断 

数据 的 无 规律 性 或 者 错误 设 定 了 预测 变量 与 响应 变量 的 关系 ， 都 将 致使 模型 产生 巨大 的 偏差 。 这 样 的 模型 的 预测 效果 可 能 会 很 差 ， 并 且 误差 显著 。 因 此 ， 我 们 需要 对 回归 模型 进行 诊断 。 表 6-4 为 R 中 与 
回归 诊断 相关 的 函数 。 


46-4 回归 诊断 相关 函数 


cooks.distance() 计算 Cook 距离 


covratio () 计算 Covratio f 
influence.measures (model) 回归 诊断 总 括 晒 数 
kappa(z, exact-FALSE, ...) 计算 和 矩阵 的 条 件数 
vif() 方差 膨胀 因子 


durbinWatsonTest() 对 误差 日 相关 性 作 Durbin-Watson 检验 


outlierTest() Bonferroni Ej f£ di fy Ju 


(1) influence.measures () RŽ% 
: 功能 : 计算 Cook 距 离 、Covratio 值 、DEFITS 值 等 ， 常 用 于 判断 异常 值 和 强 影 响 点 。 


“ 使 用 格式 : 


influence.measures (model) 


软件 包 


stats 
stats 
stats 
base 
Car 
Car 


Car 


运行 的 结果 中 变量 "dffit"、 "cov.r', "cook.d "分别 为 DEFITS 值 、COVRATIO 值 和 Cook 距 离 。 直 观 上 来 看 ，Cook 距 离 越 大 ， 越 可 能 是 异常 值 ; COVRATIO 值 离 1 越 远 ， 则 认为 该 观测 值 的 影响 越 大 ， 


2 pel 
DEFITS 值 大 于 \ r ， 则 认为 该 观测 的 影响 比较 大 ， 其 中 p 为 自 变量 的 个 数 ，n 为 观测 数 。 


R 中 也 提供 了 单独 计算 DEFITS 值 、COVRATIO 值 和 Cook 距 离 的 函数 ， 调 用 格式 分 别 为 : 


dffits (model) 
covratio (model) 
cooks.distance (model) 


(2) outlierTest () AŽ 
: 功能 : Bonfettoni 离 群 点 检验 。 


使 用 格式 : 


outlierTest (model) 


. 实例 : 对 美国 妇女 的 平均 身高 和 体重 数据 进行 Bonferroni 离 群 点 检验 。 


## Bonferroni 离 群 点 检验 
> library (car) 
> fit <- lm(weight ~ height, data = women) # 建 立 线 性 模型 
> outlierTest(fit) # Bonferroni 离 群 点 检验 
No Studentized residuals with Bonferonni p < 0.05 
Largest |rstudent|: 
Rstudent  unadjusted p-value Bonferonni p 
15 2.970125 0.011698 0.17548 
> women[10,]2c(70,200) ”# 将 第 10 个 观测 的 数据 改 成 height=70，weight=200 
> fit <- lm(weight ~ height, data = women) 
> outlierTest(fit) # Bonferroni 高 群 点 检验 

rstudent unadjusted p-value Bonferonni p 
10 28.10987 2.5446e-12 3.8169e-11 


建立 身高 和 体重 的 线性 模型 后 ， 使 用 outlierTest 函 数 进 行 离 群 点 检验 ，P 值 为 0.17548， 表 明 数 据 中 没有 离 群 点 。 将 第 10 个 观测 的 值 改 为 height=70、weight=200 后 ， 


明 第 10 个 观测 为 离 群 点 。 
(3) kappa () Zk 
` 功能 : 计算 模型 的 条 件数 ， 可 用 于 多 重 共 线性 检验 。 


使 用 格式 : 


kappa (z, exact-FALSE, http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15770/OEBPS/Text/...) 


第 10 个 观测 的 P 值 小 于 0.05， 说 


其 中 : z 是 矩阵 或 者 Im 函数 和 glm 函 数 生成 的 对 象 ; exact 是 逻辑 变量 ， 当 exact=TRUE 时 ， 精 确 计 算 条 件数 ， 否 则 ， 近 似 计算 条 件数 。 
一 般 认 为 ， 当 K<100 时 ， 不 存在 多 重 共 线性 ; 当 100<K < 1000 时 ， 存 在 较 强 的 多 重 共 线性 ; 当 vif> 1000 时 ， 存 在 严重 多 重 共 线性 。 
(4) vif () BREX 

| 功能: 方差 膨胀 因子 ， 可 用 于 多 重 共 线性 检验 。 


. 使 用 格式 : 


vif (model) 


经 验 判断 方法 表明 : 当 vif < 10 时 ， 不 存在 多 重 共 线 性 ; 当 10<vif < 100 时 ， 存 在 较 强 的 多 重 共 线性 ; 当 vif>100 时 ， 存 在 严重 多 重 共 线性 。 
(5) durbinWatsonTest () RAŽ 


. 功能 : 检验 误差 项 的 自 相关 性 。 


CRURA: 


durbinWatsonTest (model, alternative-c("two.sided", "positive", "negative")) 


其 中 : model7j 


型 ， 或 从 线性 模型 中 得 到 的 残 差 向 量 ; alternative 参 数 的 选项 分 别 表 示 双 侧 检验 、 右 侧 检 验 和 左 侧 检 验 。 


: 实例 : 对 代码 清单 6-1 中 的 模型 Im.model 的 误差 作 自 相关 性 检验 


TH ex EROS ES XE 

» durbinWatsonTest (lm.model) 

lag  Autocorelation D-W Statistic p-value 
1 0.585079 0.3153804 0 
Alternative hypothesis: rho != 0 


相关 性 检验 的 原 假 设 为 序列 不 存在 自 相 关 性 ， 备 择 假设 为 序列 存在 自 相 关 性 。 本 例 中 p 值 为 0， 所 以 误差 项 存在 自 相关 。 
2. 目 变量 选择 
在 实际 的 问题 中 ， 影 响 因 变 量 的 因素 很 多 ， 可 以 选择 若干 个 自 变量 建立 回归 方程 ， 这 便 涉及 变量 选择 的 问题 。R 软 件 中 step () 函数 可 以 完成 这 一 过 程 。 


.使 用 格式 : 


step (object, scope, scale = 0, direction = c("both", "backward", "forward"), 
trace = 1, keep = NULL, steps = 1000, k = 2, -) 


其 中 ，object 是 回归 模型 ，scope 是 确定 自 变 量 选 择 过 程 的 区 域 ，scale 用 于 AIC 统 计量 。direction 确 定 自 变量 选择 的 方法 ， 默 认 值 "poth" 是 “一 切 子 集 回 归 ”,， "backward" 是 “后 退 


m, "forward" zz 


“前 进 法 ”。 


实例 : 使 用 数据 集 fteeny 建 立 逻 辑 回归 模型 ， 并 进行 自 变量 选择 。 


代码 清单 6-3 


和 目 变 量 选择 代码 


## 自 变量 选择 
Data= freeny 
lm-1m(y-.,data-Data) flogisticm ys 
summary (lm) 
1m.step«-step (lm, direction-"both") # 一 切 子 集 回 归 
summary (lm. step) 
lm.step<-step (lm, direction="forward") # 前 进 法 
summary (lm. step) 
lm.step<-step (lm, direction="backward") # 后 退 法 
summary (lm.step) 
运行 代码 清单 6-3 可 以 得 到 部 分 输出 结果 如 下 : 
> lm.step«-step (lm, direction="both") # 一 切 子 集 回 归 
Start:  AIC--324.36 
y ~ lag.quarterly.revenue + price.index + income.level + market.potential 
Df Sum of Sq RSS AIC 
-lag.quarterly.revenue 1 0.0001642 0.0075392 -325.50 
«none» 0.0073750 -324.36 
-market. potential 0.0014805 0.0088555 -319,22 
-price. index 0.0047767 0.0121517 -306.88 
-income.level 1 0.0071230 0.0144980 -299.99 
Step:  AIC--325.5 
y^ price. index + income.level + market.potential 
Sum of Sq RSS AIC 

«none» 0.0075392 -325.50 
Tlag.quarterly.revenue 0.0001642 0.0073750 -324.36 
-market.potential 0.0040174 0.0115565 -310.84 
-price.index ] 0.0087700 0.0163092 -297.40 
-income.leve] 0.0157017 0.0232409 -283.59 
> summary (lm.step) 
Call: 
lm(formula = y ~ price.index + income.level + market.potential, 

data = Data) 
Residuals: 
Min 1Q Median  3Q Max 
-0.0273061 -0.0090031 0.0007218 0.0111354 0.0270294 
Coefficients: 

Estimate Std.Error t value Pr(»|t|) 

(Intercept) -13.31014 5.04423 -2.639 0.012339 » 
price.index -0.83488 0.13084 -6.381 2.44e-07 Wo 
income.level 0.84556 0.09904 8.538 4.47e-10 pid 
market.potential 1.62735 0.37682 4.319 0.000123 Wo 


http: //www.hzcou 
Signif. codes: 


rse.com/resource/readi 
(y Txt (I OQT t*** 9.01 


*t (ya). a 


"Qul t * 1 


Book?path-/openresources/teach ebook/uncompressed/15770/0E 


Tm 


BPS/Text/... 


Residual standard error: 0.01468 on 35 degrees of freedom 
Multiple R-squared: 0.998, Adjusted R-squared: 0.9978 
F-statistic: 5846 on 3 and 35 DF, p-value: < 2.2e-16 


M Em sRRSILUEH, KAFANA, IIS T 355 ag.quarterly.revenue, E&ZETJgeeRisU GI SB E 7Jprice.index, income.levelff]lmarket.potential, EUESZUÉSAIC(BER-325.5, 为 
最 小 值 。 


第 6 章 “分 类 与 预测 


6.1 回归 分 析 
回归 分 析 是 一 种 预测 性 的 建 模 技术 ， 它 研究 的 是 因 变量 (目标 ) 和 自 变 量 (预测 器 ) 之 间 的 关系 。 这 种 技术 通常 用 于 预测 分 析 以 及 发 现 变量 之 间 的 因果 关系 。 例 如 ， 人 研究 司机 的 鲁莽 驾驶 与 道路 交通 事 
故 数 量 之 间 的 关系 ， 最 好 的 方法 就 是 回归 |。 
使 用 回归 分 析 的 好 处 如 下 : 
E 表明 自 变 量 和 因 变 


量 之 间 的 显著 关系 ; 


* 表明 多 个 自 变 量 对 一 个 因 变 量 的 影响 强度 


回归 分 析 也 人 允许 我 们 去 比较 那些 衡量 不 同 尺度 的 变量 之 间 的 相互 影响 ， 如 价格 变动 与 促销 活动 数量 之 间 的 联系 。 这 些 有 利于 帮助 市 场 研究 人 员 、 数 据 分 析 人 员 以 及 数据 科学 家 排除 并 估计 出 一 组 最 佳 的 
变量 ， 用 来 构建 预测 模型 。 


回归 建 模 : 在 R 中 ， 常 用 的 拟 合 线性 回归 模型 的 函数 是 Im 函数 ， 广 义 线性 回归 模型 常用 的 函数 为 glm 函 数 。 除 了 Im () 和 glm () ， 表 6-1 还 列 出 了 其 他 一 些 对 回归 分 析 有 用 的 函数 。 拟 合 模型 后 ， 将 这 
些 国 数 应 用 于 Im () 和 glm () 返回 的 对 象 ， 可 以 得 到 更 多 额外 的 模型 信息 。 


表 6-1 回归 分 析 常 用 有 函数 


函数 用 途 
summary(model) 展示 拟 合 模型 的 详细 结果 
coefficients(model) 列 出 拟 合 模型 的 模型 参数 ( 截 距 项 和 和 斜率) 
(5E) 
函数 Ri 
confint(object, parm, level — l S f "A - | 
0.95. .) 提供 模型 参数 的 置信 区 间 (GRA 95%) 
fitted(model) 列 出 拟 合 模型 的 拟 合 值 
anova(model) 生成 一 个 拟 合 模型 的 方差 分 析 表 ， 或 比较 两 个 或 更 多 拟 合 模型 的 方差 分 析 表 
vcov(model) 列 出 模型 参数 的 协 方差 窍 阵 
residuals(model) 列 出 模型 的 残 差 
AlIC(model) 输出 赤 池 信息 统计 量 
predict(model) 用 拟 合 模型 对 新 的 数据 集 预 测 对 应 的 预测 值 
plot(model) 生成 评价 拟 合 模型 的 诊断 图 


接 下 来 将 详细 介绍 Im () 函数 和 glm () 函数 的 功能 和 用 法 。 
(1) Im () 函数 
: 功能 : 拟 合 回归 模型 和 进行 方差 分 析 。 


` 使 用 格式 .: 


lm(formula, data, subset, weights, na.action, method = "qr", model = TRUE, x = FALSE, y = FALSE, qr = TRUE, singular.ok = TRUE, contrasts = NULL, offset, http://www.hzcourse.cc 


其 中 ，formula 指 要 拟 合 的 模型 形式 ，data 是 一 个 数据 框 ， 包 含 了 用 于 拟 合 模型 的 数据 。formula 中 常用 的 符号 见 表 6-2。 


表 6-2 表达 式 中 常用 符号 


符号 符号 用 途 
分 隅 和 符号， 左边 为 啊 应 变量 ， 右 边 为 解释 变量 。 例 如 ， 要 通过 x、z 和 w 预测 y， 代码 为 y~ x 
十 Z 十 W 
十 分 隅 预测 变量 
表示 预测 变量 的 交互 项 。 例 如 ， 要 通过 x、z 及 x 与 z 的 交互 项 预测 y， 代码 为 y~x+z+x:z 
表示 所 有 可 能 交互 项 的 简洁 方式 。 代 码 y~ x * z * w 可 展开 为 y~x+Z+wW+x:z+Xx:w+Z:w + 
X:Z:W 
i 表示 交互 项 达到 某 个 次 数 。 代 码 y~ (xz w)2nu[IEJFJJ y x * zw xz xw + zw 
表示 包含 除 因 变量 外 的 所 有 变量 。 例 如 ， 者 一 个 数据 框 包 含 变 量 x、y、z 和 w， 代 人 码 y ~ .可 
展开 为 y~x+z+w 
减 号 ， 表 示 从 等 式 中 移 除 某 个 变量 。 例 如 ，y ~ (x+z+w -xw 可 展开 为 y~x+ZzZ+w ++X:z 
十 Z:W 
-] 删除 截 距 项 。 例 如 ， 表 达 式 y~x-1 拟 合 y 在 x 上 的 回归 ， 并 强制 直线 通过 原点 
IO 从 算术 的 角度 来 解释 括号 中 的 元 素 。 例 如 ,y~Xx+(z+w)^2 将 展开 为 yY~x+z+w+zw。 相 反 ， 
RE y — x * K((z - w)^2) 将 展开 为 y~x+h，h 是 一 个 由 z 和 w 的 平方 和 创建 的 新 变量 
function 可 以 在 表达 式 中 用 的 数学 困 数 。 例 如 ，log(w ~x+z+w 表示 通过 x、z 和 w 来 预测 log(y) 


实例 : 利用 数据 集 women 建 立 简单 线性 回归 模型 。 


代码 清单 6-1 ”数据 集 women 建 立 线性 回归 模型 代码 


## 线 性 回归 模型 

data (women) 

lm.model <- lm( weight ~ height -1, data = women)  4XE z Ap mE 
summary (1m.model # 输 出 模型 的 统计 信息 


— 


coefficients (lm.model) # 输 出 参数 估计 值 

confint (lm.model, parme"speed",level = 0.95) #parm 缺 省 则 计算 所 有 参数 的 置信 区 间 
fitted (1m.model) # 列 出 拟 合 模型 的 预测 值 

anova (1m.model) # 生 成 一 个 拟 合 模型 的 方差 分 析 表 

vcov (1m.model) # 列 出 模型 参数 的 协 方差 矩阵 
residuals (lm.model) # 列 出 模型 的 残 差 

AIC (1m.model) # 输 出 AIC 值 

par (mfrow-c (2,2)) 

plot (lm.model) # 生 成 评价 拟 合 模型 的 诊断 图 


运行 代码 清单 6-1 可 以 得 到 部 分 输出 结果 如 下 : 


> summary(lm.model) # 输 出 模型 的 统计 信息 


Call: 
lm(formula = weight ~ height, data = women) 
Residuals: 

Min 1Q Median 3Q Max 
-14.7333 -1.1333 -0.3833 0.7417 3.1167 
Coefficients: 

Estimate Std. Error t value Pr (>|t|) 
(Intercept) -87.51667 5.93694 -14.74 1 .71e-09 *** 
height 3.45000 0.09114 37.85 1.09e-14 *** 
Signif. codes: Q '***' 0.001 '**' 0.01 '*' 0.05 !'.' O.1 ' ' 1 
Residual standard error: 1.525 on 13 degrees of freedom 
Multiple R-squared: 0.991, Adjusted R-squared: 0.9903 
F-statistic: 1433 on 1 and 13 DF, p-value: 1.091e-14 
> AIC (1m.model) # 输 出 赤 池 信息 统计 量 
[1] 59.08158 


Estimate, Std.Error, t value, Pr >lt) 分 别 表示 : 估 值 、 标 准 误差 、T 值 、P 值 。 


height 的 回归 系数 (3.45) 显著 不 为 0 (p<0.001) ， 表 明 身 高 每 增加 一 个 单位 ， 体 重 将 预期 增加 3.45 个 单位 。Multiple R-squared 和 Adjusted R-squared 这 两 个 值 ， 常 被 称 为 “ 拟 合 优 度 ” 和 “修正 
的 拟 合 优 度 ”， 是 指 回归 方程 对 样本 的 拟 合 程度 ， 越 接近 “1”， 拟 合 程度 越 高 。 标 准 化 残 差 (1.525) 则 可 以 认为 是 模型 用 身高 预测 体重 的 平均 误差 。F-statistic 为 F 统 计量 ， 用 于 判断 方程 整体 的 显著 性 检 
验 ， 其 P 值 明显 小 于 0.05， 表 示 方 程 在 P=0.05 的 水 平 上 通过 显著 性 检验 。 
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图 6-1 ”回归 模型 诊断 图 


图 6-1 为 模型 的 回归 诊断 图 。 这 里 左上 图 是 残 差 对 拟 合 值 作 图 ， 若 因 变 量 与 自 变量 线性 相关 ， 那 么 残 差 值 与 预测 (WME) 值 就 没有 任何 系统 关联 ， 本 例 的 残 差 和 拟 合 值 图 可 以 清楚 地 看 到 一 个 曲线 关系 ， 
这 暗示 着 可 能 需要 对 回归 模型 加 上 一 个 二 次 项 。 右 上 图 为 残 差 QQ 图 ， 用 以 观察 残 差 是 否 符合 正 态 分 布 。 若 满足 正 态 假设 ， 那 么 图 上 的 点 应 该 落 在 呈 45" 的 直线 上 ; 左下 图 是 标准 化 残 差 对 拟 合 值 ， 用 于 判断 
模型 残 差 是 否 等 方差 。 若 满足 不 变 方差 假设 ， 水 平 线 周围 的 点 应 该 随机 分 布 ; 右 下 图 是 残 差 与 杠杆 图 ， 虚 线 表 示 的 cooks 距 离 等 高 线 ， 从 图 形 可 以 鉴别 出 离 群 点 、 高 杠杆 值 点 和 强 影响 点 。 


(2) gim () RŽ 


-JE 拟 合 广义 线性 回归 模型 。 


.使 用 格式 : 


gim(formula, family = gaussian, data, weights, subset, na.action, start = NULL, etastart, mustart, offset, control = list (http://www.hzcourse.com/resource/readBook?path-/openre 


46-9 ”参数 family 的 选项 及 各 选项 对 应 的 连接 函数 


族 名 关联 函数 


binomial logit, probit, log, cloglog 
gaussian identity, log, inverse 

gamma identity, inverse, log 
Inverse.aussian |/mu^2, identity, inverse, log 


族 名 关联 函数 
poisson identity, log, sqrt 


quasi logit, probit, cloglog, identity, inverse, log, l/mu^2, sqrt 


常用 的 family: 

binomal (link='logit') ， 响 应 变量 服从 二 项 分 布 ， 连 接 函数 为 logit， 即 logistic 回 归 ; 
binomal (linkz'probit') ， 响 应 变量 服从 二 项 分 布 ， 连 接 函 数 为 probit; 

poisson (linkz'identity') ， 响 应 变量 服从 泊 松 分 布 ， 即 泊 松 回归 。 

` 实例 : 结婚 时 间 、 教 育 、 宗 教 等 其 他 变量 对 出 轨 次 数 的 影响 。 


代码 清单 6-2 ”逻辑 回归 代码 


### 逻 辑 回归 模型 

data (Affairs,package-" AER") 

# 由 于 变量 affairs 为 正 整数 ， 为 了 进行 Logistic 回 归 先 要 将 其 转化 为 二 元 变量 。 
AffairsSynaffair[Affairs$affairs > 0] <- 1 

AffairsSynaffair[AffairsSaffairs == 0] <- 0 

AffairsSynaffair <- factor(AffairsSynaffair, levels-c(0,1),labels-c("No","Yes")) 


# 建 立 Logistic 回 归 模 型 
model.L<-glm (ynaffair~age+yearsmarried+religiousness +rating, data-Affairs, family-binomial (link-logit)) 
summary (model. L) # 展 示 拟 合 模 型 的 详细 结果 


predictdata<-data.frame (Affairs[,c("age","yearsmarried","religiousness"," 'rati-ng")]) 
# 由 于 拟 合 结果 是 给 每 个 观测 值 一 个 概率 值 ， 下 面 以 0.4 作 为 分 类 界限 

predictdata$y- (predict (model.L,predictdata,type-"response")»0.4) 
predictdata$y [which (predictdata$y--FALSE)]-"No" # 把 预测 结果 转换 成 原先 的 值 (Yes No) 
predictdata$y [which (predictdata$y--TRUE)]-"Yes" 

confusion-table (actual-AffairsS$ynaffair,predictedclass-predictdata$y) PLA HEE 
usion)))/sum(confusion) # 计 算 错 判 率 


(sum (confusion)-sum(diag (conf 


运行 代码 清单 6-2 得 到 部 分 结果 如 下 : 


> summary (model.L) # 展 示 拟 合 模 型 的 详细 结果 

Call: 

glm(formula = ynaffair ~ age + yearsmarried + religiousness + 
rating, family = binomial, data = Affairs) 

Deviance Residuals: 
Min 1Q Median 3Q Max 

-1.6278 -0.7550 -0.5701 -0.2624 2.3998 

Coefficients: 


Estimate Std. Error z value Pr(>|z|) 


(Intercept) 1.93083 0.61032 3.164 0.001558 e 
age -0.03527 0.01736 -2.032 0.042127 x 
yearsmarried 0.10062 0.02921 3.445 0.000571 KRE 
religiousness -0.32902 0.08945 -3.678 0.000235 KER 
rating -0.46136 0.08884 25.193 2.06e-07 XE 
Signit. codes: OO "4 0.001 tw*' 0.01 TE Q.05 "." O51l * I 


(Dispersion parameter for binomial family taken to be 1) 
Null deviance: 675.38 on 600 degrees of freedom 

Residual deviance: 615.36 on 596 degrees of freedom 

AIC: 625.36 

Number of Fisher Scoring iterations: 4 

> confusion 

Predicted class 


actual No Yes 

No 412 39 

Yes 105 45 

> (sum(confusion)-sum (diag (confusion) ))/sum(confusion) #i #44] d 
[1] 0.2396007 


predict 函 数 是 R 最 常用 的 模型 预测 函数 ， 调 用 格式 为 : 


predict (model, newdata, type) 


其 中 ，newdata 为 数据 框 ， 数 据 框 中 包含 模型 中 的 自 变 量 。 对 于 模型 model.L，newdata 中 需要 包含 age、yearsmarried、religiousness 和 rating 4 个 变量 ， 否 则 不 能 进行 预测 。 


predict 阔 数 中 type 的 参数 在 不 同 的 模型 中 有 不 同 的 选项 。 对 于 使 用 glm 函 数 建立 的 模型 ，type=c ("link", "response", "terms") ， 在 logistics 回 归 中 ， 常 用 的 参数 是 "response"， 预 测 结果 返回 ， 预 
测 的 概率 数值 在 0 到 1 之 间 。 


1. 回 归 诊 断 


数据 的 无 规律 性 或 者 错误 设 定 了 预测 变量 与 响应 变量 的 关系 ， 都 将 致使 模型 产生 巨大 的 偏差 。 这 样 的 模型 的 预测 效果 可 能 会 很 差 ， 并 且 误差 显著 。 因 此 ， 我 们 需要 对 回归 模型 进行 诊断 。 表 6-4 为 R 中 与 
回归 诊断 相关 的 函数 。 


表 6-4 回归 诊断 相关 函数 


西数 
cooks.distance() 计算 Cook 距离 
covratio () 计算 Covratio fH 


influence.measures(model) [n IH iZ Pr es di ER RC 
kappa(z, exact-FALSE, ...) 计算 和 矩阵 的 条 件数 


vif() 方差 膨胀 因子 


durbinWatsonTest() 对 误差 日 相关 性 作 Durbin-Watson 检验 


outlierTest() Bonferroni 离 群 点 检验 


(1) influence.measures () RŽI 
: 功能 : 计算 Cook 距 离 、Covratio 值 、DEFITS 值 等 ， 常 用 于 判断 异常 值 和 强 影 响 点 。 


` 使 用 格式 : 


influence.measures (model) 


软件 包 


stats 
stats 


stats 


运行 的 结果 中 变量 "dffit"、 "cov.r', "cook.d "分别 为 DEFITS 值 、COVRATIO 值 和 Cook 距 离 。 直 观 上 来 看 ，Cook 距 离 越 大 ， 越 可 能 是 异常 值 ; COVRATIO 值 离 1 越 远 ， 则 认为 该 观测 值 的 影响 越 大 ， 


p+l 


DEFITS 值 大 于 \ n ， 则 认为 该 观测 的 影响 比较 大 ， 其 中 p 为 自 变 量 的 个 数 ，n 为 观测 数 。 


R 中 也 提供 了 单独 计算 DEFITS 值 、COVRATIO 值 和 Cook 距 离 的 函数 ， 调 用 格式 分 别 为 : 


dffits (model) 
covratio (model) 
cooks.distance (model) 


(2) outlierTest () AŽ% 
` 功能 : Bonferroni 离 群 点 检验 。 


` 使 用 格式 : 


outlierTest (model) 


- 实例 ; 对 美国 妇女 的 平均 身高 和 体重 数据 进行 Bonferroni 离 群 点 检验 。 


## Bonferroni 离 群 点 检验 

> library (car) 

> fit <- lm(weight ~ height, data = women) # 建 立 线 性 模型 
> outlierTest(fit) # Bonferroni 高 群 点 检验 

No Studentized residuals with Bonferonni p < 0.05 
Largest |rstudent|: 
Rstudent  unadjusted p-value Bonferonni p 
15 2.970125 0.011698 0.17548 


> women[10,]2c(70,200) ” # 将 第 10 个 观测 的 数据 改 成 height=70，weight=200 
> fit <- lm(weight ~ height, data = women) 
> outlierTest(fit) # Bonferroni 离 群 点 检验 
rstudent unadjusted p-value Bonferonni P 
10 28.10987 2.5446e-12 3.8169e-11 


建立 身高 和 体重 的 线性 模型 后 ， 使 用 outlierTest 背 数 进 行 离 群 点 检验 ，P 值 为 0.17548， 表 明 数 据 中 没有 离 群 点 。 将 第 10 个 观测 的 值 改 为 height=70、 


明 第 10 个 观测 为 离 群 点 。 
(3) kappa () ERR 
` 功能: 计算 模型 的 条 件数 ， 可 用 于 多 重 共 线性 检验 。 


.使 用 格式 : 


kappa (z, exact-FALSE, http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15770/OEBPS/Text/...) 


其 中 : ZERRA MARIMAR; exact 是 逻辑 变量 ， 当 exact=TRUE 时 ， 精 确 计 算 条 件数 ， 否 则 ， 近 似 计 算 条 件数 。 
一 般 认 为 ， 当 K<100 时 ， 不 存在 多 重 共 线性 ; 当 100<K < 1000 时 ， 存 在 较 强 的 多 重 共 线性 ; 当 vif> 1000 时 ， 存 在 严重 多 重 共 线 性 。 
(4) vif () BRE 

| 功能: 方差 膨胀 因子 ， 可 用 于 多 重 共 线性 检验 。 


使 用 格式 : 


vif (model) 


weight-200/m, 


第 10 个 观测 的 P 值 小 于 0.05， 说 


经 验 判断 方法 表明 : 当 vif < 10 时 ， 不 存在 多 重 共 线性 ; 当 10<vif < 100 时 ， 存 在 较 强 的 多 重 共 线性 ; 当 vif> 100 时 ， 存 在 严重 多 重 共 线性 。 


(5) durbinWatsonTest () RAŽI 


. 功能 : 检验 误差 项 的 自 相关 性 


` 使 用 格式 : 


durbinWatsonTest (model, alternative-c("two.sided", "positive", "negative")) 


其 中 : model7j 


型 ， 或 从 线性 模型 中 得 到 的 残 差 向 量 ; alternative 参 数 的 选项 分 别 表示 双 侧 检验 、 右 侧 检 验 和 左 侧 检 验 。 


. 


实例 : 对 代码 清单 6-1 中 的 模型 Im.model 的 误差 作 自 相关 性 检验 。 


## 检 验 误差 项 的 自 相 关 性 
> durbinWatsonTest (lm.model) 


lag  Autocorelation D-W Statistic p-value 
] 0.585079 0.3153804 0 
Alternat tive hypothesis: rho !- 0 


相关 性 检验 的 原 假 设 为 序列 不 存在 自 相 关 性 ， 备 择 假设 为 序列 存在 自 相关 性 。 本 例 中 p 值 为 0， 所 以 误差 项 存在 自 相关 。 
2. 自 变量 选择 
在 实际 的 问题 中 ， 影 响 因 变量 的 因素 很 多 ， 可 以 选择 若干 个 自 变量 建立 回归 方程 ， 这 便 涉及 变量 选择 的 问题 。R 软 件 中 step () 函数 可 以 完成 这 一 过 程 。 


“ 使 用 格式 : 


step (object, scope, scale = 0, direction = c("both", "backward", "forward"), 
trace = 1, keep = NULL, steps = 1000, k = 2, …) 


其 中 ，object 是 回归 模型 ，scope 是 确定 自 变 量 选 择 过 程 的 区 域 ，scale 用 于 AlIC 统 计量 。direction 确 定 自 变 量 选 择 的 方法 ， 默 认 值 "both "是 “一 切 子 集 回 归 ”， "backward "是 “后 退 
ik ^, "forward "是 “前 进 法 ”。 


实例 : 使 用 数据 集 freeny 建 立 逻 辑 回 归 模 型 ， 并 进行 自 变量 选择 。 
代码 清单 6-3” 自 变量 选择 代码 


## 自 变量 选择 
Data= freeny 
lm-lm(y-.,data-Data) flogisticum ys 
S mary (1m) 
lm.step«-step 
mary (l1m.step) 
step«-step (lm,direction- 
mary (lm.step) 
S 
m 


1m,direction-"both") d—54- wy 


一 


S 


"forward") # 前 进 法 


— 


S 


一 


tep«-step (lm, direction="backward") # 后 退 法 
ary (lm.step) 


EBEBEHEN 


S 


运行 代码 清单 6-3 可 以 得 到 部 分 输出 结果 如 下 : 


> lm.step<-step (lm, direction-"both") # 一 切 子 集 回归 
Start: AIC=-324.36 
y ~ lag.quarterly.revenue + price.index + income.level + market.potential 
Df Sum of Sq RSS AIC 
-lag.quarterly.revenue 1 0.0001642 0.0075392 -325.50 
«none» 0.0073750 -324.36 
-market.potential 0.0014805 0.0088555 -319.22 
-price.index 1 0.0047767 0.0121517 -306.88 
-income.level 1 0.0071230 0.0144980 -299.99 
Step:  AIC--325.5 
y^ price. index + income.level + market.potential 
Sum of Sq RSS AIC 
«none» 0.0075392 -325.50 
Tlag.quarterly.revenue 1 0.0001642 0.0073750 -324.36 
-market. potential 1 0.0040174 0.0115565 -310.84 
-price. index 1 0.0087700 0.0163092 -297.40 
-income.leve] 1 0.0157017 0.0232409 -283.59 
> summary (l1m.step) 
Call: 
Mie pan = y ~ price.index + income.level + market.potential, 
data = ta) 
Residuals: 
Min 1Q Median  3Q Max 
-0.0273061 -0.0090031 0.0007218 0.0111354 0.0270294 
Coefficients: 
Estimate Std.Error t value Pr(»|t|) 
(Intercept) -13.31014 5.04423 -2.639 0.012339 x 
price.index -0.83488 0.13084 -6.381 2.44e-07 KAK 
income.level 0.84556 0.09904 8.538 4.47e-10 EFK 
market .Potential 1.62735 0.37682 4.319 0.000123 RN 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15770/OEBPS/Text/... 
Signif. codes: (O0 '***' 0.001 '**' 0.01 '*' 0.05 "r O.1 ' ' 1 
Residual standard error: 0.01468 on 35 degrees of freedom 
Multiple R-squared: 0.998, Adjusted R-squared: 0.9978 
F-statistic: 5846 on 3 and 35 DF, p-value: < 2.2e-16 


A. EmBS£RRILUEH, SEFH—UI-T SIBIIASIERSEE, AER f 3EsElag.quarterly.revenue, Ex£ETAEERSESEHEJSRJSES7Jprice.index, income.levelf[]market.potential, EHEZJBSAIC(EiER-325.5, 73 
最 小 值 。 


6.2 决策 树 


决策 树 方法 在 分 类 、 预 测 、 规 则 提取 等 领域 有 着 广泛 的 应 用 。 在 20 世 纪 70 年 代 后 期 和 80 年 代 初 期 ， 机 器 学 习 研 究 者 上 Ross Quinilan 提 出 了 ID3[5-2] 算 法 以 后 ， 决 策 树 在 机 器 学 习 、 数 据 挖 掘 领域 得 到 极 
大 的 发 展 。Quinilan 后 来 又 提出 了 C4.5， 成 为 新 的 监督 学 习 算法 。1984 年 几 位 统计 学 家 提出 了 CART 分 类 算法 。1D3 和 CART 算 法 大 约 同时 被 提出 ， 但 都 是 采用 类 似 的 方 ; 


决策 树 是 一 树 状 结构 ， 它 的 每 一 个 叶 节 点 对 应 着 一 个 分 类 ， 非 叶 节 点 对 应 着 在 某 个 属性 上 的 划分 ， 根 据 样本 在 该 属性 上 的 不 同 取 值 将 其 划分 成 若干 个 子 集 。 对 于 非 纯 的 叶 节 点 ， 多 数 类 的 标号 给 出 到 达 
节点 的 样本 所 属 的 类 。 构 造 决策 树 的 核心 问题 是 在 每 一 步 如 何 选择 适当 的 属性 对 样本 做 拆 分 。 对 一 个 分 类 i 决策 树 是 一 个 自 上 而 下 、 分 而 治之 的 过 程 。 


NPA 


常用 的 决策 树 算法 见 表 6-5。 


表 6-5 决策 树 算 法 分 类 


TUE TE 


C4.5 决策 树 生成 算 ID3 算法 的 重要 改进 是 使 用 信息 
C4.5 算法 来 选择 方 点 属性 。C4.5 算法 既 能 够 处 理 离散 的 描述 属性 ， 也 可 "à party ctree() 
连续 的 描述 属性 
CART 决策 树 是 一 种 十 分 有 效 的 非 参数 分 类 和 回归 方法 ， ien 


CART 算法 “| 树 、 修 剪 树 、 — 个 二 义 树 。 当 终结 点 是 连续 变量 时 ， tree tree() 
树 为 回归 树 ; 当 终 结 点 是 分 类 变量 时 ， 该 树 为 分 类 树 
C5.0 是 C4.5 算 法 的 修订 版 适用 I— 采用 Boosting 


C5.0 算法 Ton" i ü 
i 方式 提高 模型 准确 率 ， 根 据 能 够 带 来 的 最 大 信息 增益 的 字段 拆 分 样本 


C50 C5.0() 


6.2.1 C4.5 算 法 


C4.5 是 机 器 学 习 算 法 中 的 一 个 分 类 决策 树 算法 。 它 是 基于 1D3 算 法 进行 改进 后 的 一 种 重要 算法 ， 目 标 是 监督 学 习 : 给 定 一 个 数据 集 ， 其 中 的 每 一 个 元 组 都 能 用 一 组 属性 值 来 描述 ， 每 一 个 元 组 属于 一 个 
互 斥 的 类 别 中 的 某 一 类 。 (54.5 的 目标 是 通过 学 习 ， 找 到 一 个 从 属性 值 到 类 别 的 映射 关系 ， 并 且 这 个 映射 能 用 于 对 新 的 类 别 未 知 的 实体 进行 分 类 。(C4.5 能 够 处 理 非 离散 数据 ， 也 能 够 处 理 不 完整 的 数据 。 


在 R 语 言 中， 实现 C4.5 决 策 树 建 模 是 非常 方便 的 ， 实 现 该 算法 主要 是 借助 party 包 中 的 ctree () 函数 。 


使 用 格式 : 


ctree(formula, data, weights , http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15770/OEBPS/Text/...) 


其 中 : formula 是 决策 树 模 型 的 公式 ， “预测 变量 ~ 因 变 量 1+ 因 变量 2+...” 的 格式 ， 若 选择 除 预测 变量 之 外 的 所 有 其 他 变量 为 因 变 量 ， 则 可 以 将 公式 简写 为 “预测 变量 ~.”;weights 为 权重 变 
量 ， 默 认为 空 ， 其 他 的 参数 比较 不 常用 ， 在 这 里 不 做 一 一 介绍 。 


对 于 建立 好 的 模型 结果 model， 可 以 通过 plot 遂 数 以 图 形 来 展示 模型 的 内 部 规则， 即 可 实现 模型 规则 可 视 化 。 


“ 使 用 格式 : 


plot (model, type = c("extended", "simple")) 


模型 结果 的 预测 则 通过 predict 函 数 实现 。 


` 使 用 格式 : 


predict (model,newdata-testdata, type = c("response", "node","prob")) 


其 中 : newdata 设 置 用 来 预测 的 数据 集 ， 默 认为 训练 数据 集 ; type= "response "默认 输出 结果 为 预测 值 ; type= "node "输出 结果 为 决策 树 中 对 应 的 节点 编号 ; type= "prob "输出 结果 为 分 属于 各 个 因子 
的 概率 值 。 


在 建立 分 类 预测 模型 时 ， 常 用 的 做 法 是 首先 将 数据 集 分 为 训练 数据 集 traindata 和 测试 数据 集 testdata ， 然 后 先 利 用 训练 集 数 据 建立 模型 ， 再 利用 测试 集 数据 来 测试 该 模型 ， 由 此 来 检验 模型 的 稳定 性 。 
下 面 通过 实际 案例 了 解 R 语 言 建 立 C4.5 决 策 树 的 过 程 。 
实例 : 表 6-6 为 某 通 讯 企业 的 客户 信息 ， 包 括 年 龄 、 婚 姻 状 况 、 收 入 、 教 育 水 平 、 性 别 、 家 庭 人 数 、 套 餐 开通 月 数 等 。 


表 6-6“” 某 通讯 企业 的 客户 信息 


序号 居住 地 | ee | v | 套餐 类 型 | 流失 
| — 4 LE ws | 
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* 数 据 详 见 : 第 6 章 / 示 例 程 序 /data/telephone.csv 


针对 表 6-6 的 数据 ， 将 数据 按照 70% 和 30% 的 比例 拆 分 为 训练 数据 集 traindata 和 测试 数据 集 testdata ， 应 用 C4.5 决 策 树 算法 预测 客户 是 否 流失 ， 其 R 语 言 代 码 见 代码 清单 6-4。 


代码 清单 6-4 ”应 用 C4.5 决 策 树 预测 客户 是 否 流失 


THHEICA .5 决策 树 


setwd ("./ 第 6 章 ") # 设 置 工作 空间 

Data=read. csv ("./data/Telephone.csv") # 读 入 数据 

Data[, "流失 "]=as.factor (Data[, "流失 "]) ??? 坦 将 目标 变量 转换 成 因子 型 
set.seed(1234) # 设 置 随机 种 子 


# 数 据 集 随机 抽 70% 定 义 为 训练 数据 集 ，30% 为 测试 数据 集 

ind <- sample(2, nrow (Data), replace-TRUE, prob=c (0.7, 0.3)) 
traindata <- Data [ind==1, ] 

testdata <- Data[ind--2,] 

## 建 立 决 策 树 模 型 预测 客户 是 否 流 失 

library (party) # 加 载 决策 树 的 包 


ctree.model <- ctree (流失 ~.,，data=traindata) # 建 立 C4.5 决 策 树 模 型 
plot (ctree.model, type="simple") # 输 出 决策 树 图 
## 预 测 结 果 

train predict-predict (ctree.model) # 训 练 数据 集 

test predict-predict(ctree.model,newdata-testdata)  # 测 试 数据 集 


# 输 出 训练 数据 的 分 类 结果 
train predictdata-cbind (traindata,predictedclass-train predict) 

FA d DI) 2 ACE 9 07 AE E 

(train confusion-table (actual-traindata$7f& X,predictedclass-train predict) ) 
# 输 出 测试 数据 的 分 类 结果 

test predictdata=cbind (testdata,predictedclass=test predict) 

# 输 出 测试 数据 的 混淆 矩阵 


(test confusion-table (actual=testdata$ 流 失 , predictedclass=test predict)) 


运行 代码 清单 6-4， 得 到 图 6-2 和 表 6-7。 图 6-2 为 C4.5 决 策 树 图 ， 根 节点 为 开通 月 数 ， 阅 值 为 17， 若 开通 月 数 大 于 17， 则 样本 被 分 到 决策 树 的 右 侧 ， 依 此 类 推 。n 表 示 样 本 个 数 ，y 表 示 预 测 的 概率 ， 如 
节点 3 中 y= (0.535, 0.465) 表示 预测 值 为 0 的 概率 为 0.535， 预 测 值 为 1 的 概率 为 0.465。 样 本 通过 决策 树 分 成 了 两 类 ， 节 点 3、7、8、10、11 都 表示 预测 值 为 0， 节 点 4 表示 预测 值 为 1。 表 6- 7 为 混淆 矩阵 ， 
和 矩阵 的 行 表示 实际 值 ， 列 表示 预测 值 。 可 以 看 到 ， 预 测 值 为 1 的 样本 个 数 为 81 个 ， 其 中 57 个 是 正确 分 类 的 ，24 个 是 错误 分 类 的 。 


y-(0.809, 0.191)]5y-(0.973, 0.027)||y=(0.57 1, 0.429)|ly-(0.819, 0.181) 


E6-2 ”C4.5 决 策 树 图 
表 6-7 训练 集 ( 左 ) 和 测试 集 ( 右 ) 的 混淆 矩阵 


predictedclass predictedclass 
0 474 24 0 209 19 


6.2.2 ” CART 算法 


分 类 与 回归 树 CART 模 型 最 早 由 Breiman 等 人 提出 ， 如 今 已 经 在 统计 领域 和 数据 挖掘 技术 中 普遍 使 用 。 它 采用 与 传统 统计 学 完全 不 同 的 方式 构建 预测 准则 ， 是 以 二 又 树 的 形式 给 出 ， 易 于 理解 、 使 用 和 解 
释 。 在 很 多 情况 下 ， 由 CART 模 型 构建 的 预测 树 比 常用 的 统计 方法 构建 的 代数 学 预测 准则 更 加 准确 ， 且 数据 越 复杂 、 变 量 越 多 ， 算 法 的 优越 性 就 越 显 著 。CART 模 型 的 关键 在 于 预测 准则 的 构建 。 


CART 算 法 是 一 种 二 分 递归 分 割 技术 ， 即 把 当前 样本 划分 为 两 个 子 样本 ， 使 得 生成 的 每 个 非 叶 子 结 点 都 有 两 个 分 支 ， 因 此 CART 算 法 生成 的 决策 树 是 结构 简洁 的 二 叉 树 。 由 于 CART 算 法 构成 的 是 一 个 二 
叉 树 ， 它 在 每 一 步 的 决策 时 只 能 是 “是 ”或 “ 否 ”， 即 使 一 个 feature 有 多 个 取 值 ， 也 是 把 数据 分 为 两 部 分 。 在 CART 算 法 中 主要 分 为 两 个 步骤 : 第 一 步 是 将 样本 递归 划分 进行 建树 过 程 ; 第 二 步 是 用 验证 数 
HTSA. 


R 语 言 实现 CART 决 策 树 算法 主要 是 借助 程序 包 tree 中 的 tree () 函数 来 实现 的 。 


使 用 格式 : 


tree (formula, data, weights, na.action-na.pass, , http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15770/OEBPS/Text/...) 


其 中 : formula 是 决策 树 模 型 的 公式 ; weights 为 权重 变量 ; na.action 设 置 对 缺失 值 的 处 理 方式 ， 默 认 等 于 na.pass， 用 法 和 ctree () 国 数 基本 是 一 致 的 。 


CART 决 策 树 模型 也 是 使 用 predict () 函数 来 预测 结果 ， 但 用 法 稍 有 不 同 。 


使 用 格式 : 


predict (model,newdata-testdata, type = c("vector", "tree", "class", "where")) 
因子 型 目标 变量 一 般 设 置 type= "class" ， 数 值 型 目标 变量 一 般 设 置 type= "vector", 
实例 : 针对 通讯 企业 的 客户 数据 ， 应 用 CART 决 策 树 算法 预测 客户 是 否 流失 ， 其 R 语 言 代码 如 代码 清单 6-5 所 示 。 


代码 清单 6-5 “应 用 CART 决 策 树 预测 客户 是 否 流 失 


HHCARTACR 策 树 

setwd("./ f$ 63E") # 设 置 工作 空间 
Data-read.csv ("./data/telephone.csv") # 读 入 数据 

Data[, "流失 "]=as.factor (Data[, "流失 "]) ??? 坦 将 目标 变量 转换 成 因子 型 
set.seed(1234) # 设 置 随机 种 子 


# 数 据 集 随机 抽 70% 定 义 为 训练 数据 集 ，30% 为 测试 数据 集 

ind <- sample(2, nrow (Data), replace-TRUE, prob=c (0.7, 0.3)) 
traindata <- Data[ind--1,] 

testdata <- Data[ind--2,] 

## 建 立 决 策 树 模型 预测 客户 是 否 流 失 


library (tree) # 加 载 决策 树 的 包 

tree.model <- tree (流失 ~.，data=traindata) # 建 立 CART 决 策 树 模 型 

plot (tree.model, type="uniform") # 输 出 决策 树 图 

text (tree.model) 

## 预 测 结 果 

train predict-predict (tree.model, type="class") # 训 练 数据 集 
est predict-predict (tree.model,newdata-testdata,type-" class") # 测 试 数据 集 


# 输 出 训练 数据 多 分 类 结果 
train predictdata-cbind (traindata,predictedclass-train predict) 
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train confusion-table (actual-traindata$j7& X,predictedclass-train predict) 
# 输 出 测试 数据 的 分 类 结果 
test predictdata=cbind(testdata,predictedclass=test predict) 
# 输 出 测试 数据 的 混淆 矩阵 


test confusion-table (actual=testdata$ 流 失 , predictedclass=test predict) 


运行 代码 清单 6-5 得 到 图 6-3 所 示 的 CART 决 策 树 图 。 每 个 样本 在 通过 一 个 节点 时 都 会 进行 一 次 判断 ， 若 结果 为 真 ， 则 样本 被 分 到 决策 树 的 左 侧 ， 否 则 就 会 被 分 到 决策 树 的 右 侧 。 决 策 树 末 端的 数字 代表 
预测 值 ， 从 图 6-3 可 以 看 到 ， 开 通 月 数 小 于 17.5 且 无 线 费 用 大 于 等 于 32.8 的 用 户 流失 了 。 


月 数 «50.5 


"m 


开通 月 数 «5.5 电子 文 付 <0.5 基本 费用 «25.225 


线 费 


图 6-3 CART 决 策 树 图 


623 C5.0 算 法 


C5.0 算 法 是 C4.5 算 法 的 修订 版 ,适用 于 处 理 大 数据 集 。C5.0 算 法 采用 Boosting 方 式 提高 模型 准确 率 ， 又 称 为 BoostingTrees， 在 软件 上 计算 速度 比较 快 ， 占 用 的 内 存 资 源 较 少 。C5.0 算 法 作为 经 典 的 决 
策 树 模型 算法 之 一 ， 可 生成 多 分 支 的 决策 树 。C5.0 算 法 根据 能 够 带 来 的 最 大 信息 增益 的 字段 拆 分 样本 。 第 一 次 拆 分 确定 的 样本 子 集 随 后 再次 拆 分 ， 通 常 是 根据 另 一 个 字段 进行 拆 分 ， 这 一 过 程 重复 进行 直到 


FT/ 


样本 子 集 不 能 再 被 拆 分 为 止 。 最 后 ， 重 新 检查 最 低层 次 的 拆 分 节点 ， 那 些 对 模型 值 没 有 显著 贡献 的 样本 子 集 被 别 除 或 者 修剪 。 
C5.0 算 法 较 其 他 决策 树 算法 的 优势 在 于 : 
1.C5.0 模 型 在 面 对 数 据 遗 漏 和 输入 字段 等 很 多 的 问题 时 非常 稳健 ; 
2.C5.0 模 型 比 一 些 其 他 类 型 的 模型 易于 理解 ， 模 型 输出 的 规则 有 非常 直观 的 解释 ; 
3.C5.0 也 提供 强大 的 技术 以 提高 分 类 的 精度 。 
在 R 语 言 中 ， 加 载 C5.0 程 序 包 ， 就 可 以 应 用 程序 包 中 的 C5.0 () 函数 实现 C5.0 决 策 树 建 模 。 


` 使 用 格式 : 


C5.0(formula, data, weights, subset,na.action = na.pass, http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15770/OEBPS/Text/...) 
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实例 : 针对 通讯 企业 的 客户 数据 ， 应 用 C5.0 决 策 树 算法 预测 客户 是 否 流 失 ， 其 R 语 言 代码 见 代码 清单 6-6。 

代码 清单 6-6 ”应 用 C5.0 决 策 树 预测 客户 是 否 流失 


THHECS .0 决策 树 


setwd (^. / 3 63E") # 设 置 工 作 空间 
Data-read.csv("./data/telephone.csv") # 读 入 数据 

Data[, "A k"]=as. factor (Data[v" 流 失 "])  ??? # 将 目标 变量 转换 成 因子 型 
set.seed(1234) # 设 置 随机 种 子 


# 数 据 集 随机 抽 70% 定 义 为 训练 数据 集 ，30% 为 测试 数据 集 

ind <- sample(2, nrow(Data), replace-TRUE, prob=c (0.7, 0.3)) 
traindata <- Data [ind==1, ] 

testdata <- Data[ind--2,] 


## 建 立 决 策 树 模型 预测 客户 是 否 流失 

library (C50) # 加 载 决策 树 的 包 

c50.model <- C5.0 (流失 ~.，data=traindata) # 建 立 C5.0 决 策 树 模型 
lot (c50.model) # 输 出 决策 树 图 


pl 
## 预 测 结果 

train predict-predict (c50.model,newdata-traindata,type-"class") ## 训 练 数据 集 
test predict-predict (c50.model,newdata-testdata, type-"class") # 测 试 数据 集 
# 输 出 训练 数据 的 分 类 结果 
train predictdata-cbind (traindata,predictedclass-train predict) 
# 输 出 训练 数据 的 混淆 矩阵 
train confusion-table (actual=traindata$ 流 失 , predictedclass=train predict) 
# 输 出 测试 数据 的 分 类 结果 
test predictdata-cbind (testdata,predictedclass-test predict) 
# 输 出 测试 数据 的 混淆 矩阵 
test confusion-table (actual=testdata$ 流 失 , predictedclass=test predict) 


55.0 决 策 树 图 与 C4.5 决 策 树 图 类 似 ， 在 这 里 不 再 详细 介绍 。 


6.3 ”人工 神经 网 络 


人 工 神经 网 络 (ANN) ， 简 称 神 经 网 络 ， 是 一 种 模仿 生物 神经 网 络 的 结构 和 功能 的 数学 模型 或 计算 模型 。 神 经 网 络 由 大 量 的 人 工 神经 元 联结 进行 计算 。 大 多 数 情况 下 ， 人 工 神经 网 络 能 在 外 界 信息 的 基 
础 上 改变 内 部 结构 ， 是 一 种 自 适应 系统 。 现 代 神 经 网 络 是 一 种 非 线 性 统计 性 数据 建 模 工具 ， 常 用 来 对 输入 和 输出 间 复 杂 的 关系 进行 建 模 ， 或 用 来 探索 数据 的 模式 。 目前， 已 有 近 40 种 人 工 神经 网 络 模型 。 用 
来 实现 分 类 和 预测 的 人 工 神经 网 络 算法 包括 BP 神经 网 络 、LM 神 经 网 络 、RBF 径 向 基 神 经 网 络 等 。 


在 R 语 言 中 ，BP 神 经 网 络 作为 一 种 常用 的 分 类 预测 算法 ， 是 通过 nnet 程 序 包 中 的 nnet () 函数 来 实现 的 。 


` 使 用 格式 : 


nnet(formula,data, weights, size, decay = 0,linout = F, skip = F, maxit = 100, Hess=F, http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15 


其 中 : formula，data，weights，size 用 于 设置 隐 层 节点 数 ; decay 设 置 权 值 衰减 参数 ， 默 认为 0; linout 设 置 输出 单元 开关 ， 默 认为 F 即 不 输出 ; skip 设 置 是 否 允 许 跳 过 隐 层 ， 默 认为 F 即 不 跳 过 ; 
maxiti E AXI UAZX, 8473100; Hess 设 置 是 否 输出 Hessian 值 ， 默 认为 F 即 不 输出 。 


实例 : 针对 通讯 企业 的 客户 数据 ， 应 用 BP 神经 网 络 算法 预测 客户 是 否 流 失 ， 实 现 的 语句 如 代码 清单 6-7 所 示 。 


代码 清单 6-7 ”应 用 BP 神经 网 络 算法 预测 客户 是 否 流 失 


THHEBPAR 22 pu] 2&- 


Setwq ("./ 第 6 章 ") # 设 置 工作 空间 

Data=read. csv ("./data/telephone.csv") # 读 入 数据 

Data[, "流失 "]=as.factor (Data[, "流失 "]) ??? 碍 将 目标 变量 转换 成 因子 型 
set.seed (1234) # 设 置 随机 种 子 


# 数 据 集 随机 抽 70% 定 义 为 训练 数据 集 ，30% 为 测试 数据 集 

ind <- sample(2, nrow (Data), replace-TRUE, prob=c (0.7, 0.3)) 
traindata <- Data [ind==1, ] 

testdata <- Data[ind--2,] 


##BP 神 经 网 络 建 模 

library (nnet) th Annet é, 

# 设 置 参数 

size=10 井 隐 层 节点 数 为 10 

decay-0.05 # 权 值 的 衰减 参数 为 0.05 
nnet.model«-nnet (Jí4-.,traindata,size-size,decay-decay) # 建 立 BP 神 经 网 络 模型 

summary (nnet .model) # 输 出 模型 概要 


## 预 测 结果 
train predict-predict (nnet.model,newdata-traindata,type-"class")  # 训 练 数据 集 
test predict=predict (nnet.model,newdata-testdata, type="class") # 测 试 数据 集 
# 输 出 训练 数据 的 分 类 结果 
train predictdata-cbind (traindata,predictedclass-train predict) 
# 输 出 训练 数据 的 混淆 矩阵 
train confusion-table (actual=traindata$ 流 失 , predictedclass=train predict) 
# 输 出 测试 数据 的 分 类 结果 
test predictdata=cbind (testdata,predictedclass=test predict) 


# 输 出 测试 数据 的 混淆 矩阵 
test confusion=table (actual=testdata$ 流 失 , predictedclass=test predict) 


6.4 KNN 算 法 


KNN 算 法 即 K 最 近邻 (k-Nearest Neighbor) 分 类 算法 ， 是 一 种 理论 上 比较 成 熟 的 算法 ， 也 是 最 简单 的 机 器 学 习 算 法 之 一 。 该 方法 的 思路 是 : 如 果 一 个 样本 在 特征 空间 中 的 k 个 最 相似 ( 即 特 征 空间 中 
最 邻近 ) 的 样本 中 的 大 多 数 属于 某 一 个 类 别 ， 则 该 样本 也 属于 这 个 类 别 。KNN 算 法 中 所 选择 的 邻居 都 是 已 经 正确 分 类 的 对 象 。 该 算法 在 定 类 决策 上 只 依据 最 邻近 的 一 个 或 者 几 个 样本 的 类 别 来 决定 待 分 样本 
所 属 的 类 别 。KNN 算 法 虽然 从 原理 上 也 依赖 于 极限 定理 ， 但 在 类 别 决策 时 ， 只 与 极 少 量 的 相 邻 样本 有 关 。 由 于 KNN 算 法 主要 靠 周围 有 限 的 邻近 样本 ， 而 不 是 靠 判别 类 域 的 方法 来 确定 所 属 类 别 的 ， 因 此 对 于 
类 域 的 交叉 或 重 亚 较 多 的 待 分 样本 集 来 说 ，KNN 算 法 较 其 他 算法 更 为 适合 。 


KNN 算 法 不 仅 可 以 用 于 分 类 ， 还 可 以 用 于 回归 。 通 过 找 出 一 个 样本 的 Kk 个 最 近邻 届 ， 将 这 些 邻 居 的 属性 的 平均 值 赋 给 该 样本 ， 就 可 以 得 到 该 样本 的 属性 。 更 有 用 的 方法 是 将 不 同 距离 的 邻居 对 该 样本 产 
生 的 影响 给 予 不 同 的 权 值 (weight) ， 如 权 值 与 距离 成 正比 。 


在 R 语 言 中 ，KNN 算 法 的 实现 方式 有 三 种 : 一 是 通过 class 包 中 的 knn () 函数 实现 ; 二 是 通过 kknn 包 中 kknn () 函数 实现 ; 三 是 通过 caret 包 中 的 train () 函数 实现 。 


B 


(1) kknn () 函数 
- 程序 包 : kknn 


` 使 用 格式 : 


kknn (formula = formula (train), train, test, na.action = na.omit(),k = 7, distance = 2，…) 


其 中 : formula 为 建 模 的 公式 ， 格 式 为 “预测 变量 ~ 因 变量 1+ 因 变量 2+...”; train 为 训练 数据 集 ; test 为 测试 数据 集 ; na.action 设 置 对 缺失 值 的 处 理 方式 ， 默 认 等 于 na.omit () ， 即 删除 含有 缺失 数 
据 的 行 ; k 设 置 邻近 值 的 个 数 ， 默 认为 7; distance 为 闵可夫 斯 基 距 离 ， 默 认为 2 时 该 距离 为 欧 氏 距离 。 需 要 注意 的 是 ， 该 算法 只 能 输出 测试 数据 集 的 预测 结果 ， 不 输出 训练 数据 集 的 预测 结果 。 


(2) knn () 函数 
- 程序 包 : class 


. 使 用 格式 : 


knn (train, test, cl, k= 1, 1 = 0, prob = FALSE, use.all = TRUE 


— 


其 中 : train 为 训练 集中 的 自 变 量 ; test 为 测试 集中 的 自 变量 ; cl 为 训练 集中 的 预测 变量 ; k 为 邻近 值 个 数 ;prob 是 否 计算 预测 组 别 的 概率 ， 默 认为 FALSE， 即 不 计算 ， 如 果 为 TRUE， 则 结果 中 的 prob 属 
性 可 以 存放 该 概率 的 数值 。 


(3) train () 函数 


CORREA: 


train(x, y, method = "knn", preProcess = NULL, weights = NULL, http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15770/OEBPS/Text/...) 
其 中 : x 为 训练 集中 的 自 变 量 ; y 为 训练 集中 的 预测 变量 ; method 指 定 使 用 的 分 类 或 回归 模型 ，method= "knn "时 就 是 k 近 邻 算法 ; weights 设 定 权 重 变量 ， 默 认为 空 。 
实例 : 针对 通讯 企业 客户 数据 的 训练 数据 集 traindata 和 测试 数据 集 testdata， 分 别 用 kknn () , knn () , train () 函数 实现 KNN 算 法 预测 客户 是 否 流失 ， 见 代码 清单 6-8。 


代码 清单 6-8 应 用 KNN 算 法 预测 客户 是 否 流失 


JHHREKNN = 

setwd ("./ 第 6 章 ") # 设 置 工作 空间 
Data-read.csv("./data/telephone.csv") # 读 入 数据 

Data[, "流失 "]=as.factor (Data[, "流失 "]) ???  # 将 目标 变量 转换 成 因子 型 
set.seed (1234) # 设 置 随 机 种 子 


# 数 据 集 随机 抽 70% 定 义 为 训练 数据 集 ，30% 为 测试 数据 集 

ind <- sample(2, nrow (Data), replace-TRUE, prob=c (0.7, 0.3)) 
traindata <- Data [ind==1, ] 

testdata <- Data[ind--2,] 

FHEA kknn df ät ikni A 78 


library (kknn) # 加 载 kknn 包 
#knn 分 类 模型 

kknn.model<-kknn (流失 ~.,train=traindata, test=traindata, k = 5) # 训 练 数据 
kknn.model2<-kknn (流失 ~.,train=traindata, test=testdata, k = 5) # 测 试 数据 
summary (kknn.model) ? Hb pce 
# 预 测 结果 

train predict-predict (kknn.model, type="class") # 训 练 数据 
test predict-predict (kknn.model2,type-"class") # 测 试 数据 
# 输 出 训练 数据 的 混 清算 阵 

train confusion=table (actual=traindata$ 流 失 , predictedclass=train predict) 

# 输 出 测试 数据 的 混淆 矩阵 

test confusion-table (actual=testdata$ 流 失 , predictedclass=test predict) 


## 使 用 knn 函 数 建立 knn 分 类 模型 

library (class) 13» 3iclass e 
## 建 立 Kknn 分 类 模型 

knn.model«-knn(traindata, testdata,cl-traindata[, "流失 "]) 

# 输 出 测试 数据 的 混淆 给 阵 

test confusion-table (actual=testdata$ 流 失 , predictedclass=knn.model) 

## 使 用 上 train 函数 建立 knn 分 类 模型 


library (caret) # 加 载 caret 包 
# 建 立 knn 分 类 模型 

train.model<-train (traindata,traindatal[l, "流失 "],method = "knn") 

# 预 测 结果 

train predict=predict (train.model,newdata=traindata) # 训 练 数据 集 

test predict=predict (train.model,newdata-testdata) # 测 试 数据 集 

# 输 出 训练 数据 的 混淆 矩阵 

train confusion-table (actual=traindata$ 流 失 , predictedclass=train predict) 


# 输 出 测试 数据 的 混淆 矩阵 
test confusion-table (actual=testdata$ 流 失 , predictedclass=test predict) 


6.5 ”朴素 贝 叶 斯 分 类 


朴素 贝 叶 斯 分 类 (NaiveBayes) 是 一 种 十 分 入 
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的 思想 非常 简单 : 对 于 给 出 的 待 分 类 项 ， 求 解 在 此 项 出 现 的 条 件 下 各 个 类 别 出 现 的 概率 ， 哪 个 最 大 ， 就 认为 此 待 分 类 项 属于 哪个 类 别 。 


整个 朴素 贝 叶 斯 分 类 分 为 三 个 阶段 。 


第 一 阶段 一 一 准备 工作 阶段 。 这 个 阶段 的 任务 是 为 朴素 贝 叶 斯 分 类 做 必要 的 准备 。 主 要 工作 是 根据 具体 情况 确定 特征 属性 ， 并 对 每 个 特征 属性 进行 适当 划分 ， 然 后 由 人 工 对 一 部 分 待 分 类 项 进行 分 类 
形成 训练 样本 集合 。 这 一 阶段 输入 的 是 所 有 待 分 类 数据 ， 输 出 的 是 特征 属性 和 训练 样本 。 这 一 阶段 是 整个 朴素 贝 叶 斯 分 类 中 唯一 需要 人 工 完成 的 阶段 ， 其 质量 对 整个 过 程 将 有 重要 影响 。 


了 


第 二 阶段 一 一 分 类 器 训练 阶段 。 这 个 阶段 的 任务 就 是 生成 分 类 器 ， 主 要 工作 是 计算 每 个 类 别 在 训练 样本 中 的 出 现 频 率 及 每 个 特征 属性 划分 对 每 个 类 别 的 条 件 概率 估计 ， 并 将 结果 记录 。 其 输入 是 特征 属 
性 和 训练 样本 ， 输 出 是 分 类 器 。 分 类 器 的 质量 很 大 程度 上 由 特征 属性 、 特 征 属性 划分 及 训练 样本 质量 决定 。 这 一 阶段 是 机 械 性 阶段 ， 根 据 前 面 讨 论 的 公式 可 以 由 程序 自动 计算 完成 。 


第 三 阶段 


应 用 阶段 。 这 个 阶段 的 任务 是 使 用 分 类 器 对 待 分 类 项 进行 分 类 ， 其 输入 是 分 类 器 和 人 待 分 类 项 ， 输 出 是 待 分 类 项 与 类 别 的 映射 关系 。 这 一 阶段 也 是 机 械 性 阶段 ， 由 程序 完成 。 
在 R 语 言 中 ， 朴 素 贝 叶 斯 分 类 算法 有 两 个 实现 方式 : 一 是 借助 程序 包 e1071 中 的 naiveBayes () 函数 来 实现 ; 二 是 借助 程序 包 klaR 中 的 NaiveBayes () 函数 来 实现 。 

(1) naiveBayes () 函数 

- 程序 包 : e1071 


` 使 用 格式 : 


naiveBayes (formula, data, na.action = na.pass, http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15770/OEBPS/Text/...,) 


其 中 : formula 为 建 模 的 公式 ， 格 式 为 “预测 变量 ~ 因 变 量 1+ 因 变量 2+...”; data 为 训练 数据 集 ; na.action 设 置 对 缺失 值 的 处 理 ， 默 认 等 于 na.pass， 即 不 删除 含有 缺失 数据 的 行 ， 但 在 计算 概率 时 不 
考虑 此 类 数据 。 


(2) NaiveBayes () BŽ 
: 程序 包 : klaR 


.使 用 格式 : 


NaiveBayes (formula, data, http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15770/OEBPS/Text/..., subset, na.action = na.pass) 
BILLS, ixPSA ERZXBSRHIZ E — FER. 

实例 : 针对 通讯 企业 的 客户 数据 ， 应 用 朴素 贝 叶 斯 算法 预测 客户 是 否 流失 ， 见 代码 清单 6-9。 

代码 清单 6-9 ”应 用 朴素 贝 叶 斯 算法 预测 客户 是 否 流 失 


HERES 贝 叶 斯 分 类 算法 


setwd ("./ 第 6 章 ") # 设 置 工作 空间 

Data=read. csv ("./data/telephone.csv") # 读 入 数据 

Datal[l, "流失 "]=as.factor (Data[, "流失 "]) ”??? # 将 目标 变量 转换 成 因子 型 
set.seed(1234) # 设 置 随机 种 子 


# 数 据 集 随机 抽 70% 定 义 为 训练 数据 集 ，30% 为 测试 数据 集 

ind <- sample(2, nrow (Data), replace-TRUE, prob=c (0.7, 0.3)) 

traindata <- Data[ind--1,] 

testdata <- Data[ind--2,] 

## 使 用 naiveBayes 函 数 建立 朴素 贝 叶 斯 分 类 模型 

library (e1071) 13923610716, 
naiveBayes.model-naiveBayes (A %~., data-traindata) dE ADAE We ARS 
# 预 测 结果 

train predict=predict (naiveBayes.model,newdata-traindata) # 训 练 数 据 集 

test predict-predict (naiveBayes.model,newdata=testdata) # 测 试 数据 集 

# 输 出 训练 数据 的 分 类 结果 
train predictdata-cbind (traindata,predictedclass-train predict) 
# 输 出 训练 数据 的 混淆 矩阵 
train confusion=table (actual=traindata$ 流 失 , predictedclass=train predict) 
# 输 出 测试 数据 的 分 类 结果 
test predictdata=cbind(testdata,predictedclass=test predict) 


IHR. BUR] IRAE 069 30628 4E E 
test confusion-table (actual-testdata$ 7 ,predictedclass-test predict) 
HHA NaiveBayes AA 3-4]: N DKEA 


library (klaR) # 加 载 KlaR 包 
NaiveBayes.model-NaiveBayes (流失 ~.，data=traindata) ???? # 建 立 村 素 贝 叶 斯 分 类 模型 
# 预 测 结果 

train predict-predict (NaiveBayes .model) # 训 练 数据 集 


test predict-predict (NaiveBayes.model,newdata-testdata) # 测 试 数据 集 
# 输 出 训练 数据 的 分 类 结果 
train predictdata-cbind (traindata,predictedclass=train predict$class) 
FAN d DI) 2 AE 99 078 AE E 
train confusion-table (actual-traindata$j7f X,predictedclass-train predictS$class) 
# 输 出 测试 数据 的 分 类 结果 
test predictdata=cbind (testdata,predictedclass=test predict$class) 
# 输 出 测试 数据 的 混淆 矩阵 
test confusion-table (actual=testdata$ 流 失 , predictedclass=test predict$class) 


* 代 码 详 见 : 第 6 章 / 示 例 程 序 /code/code6-5.R 


6.6 ”其 他 分 类 与 预测 算法 冰 数 


分 类 与 预测 在 Ri 语言 中 的 数据 挖掘 部 分 占有 很 大 比重 ， 其 涵盖 多 个 算法 模块 ， 主 要 的 算法 模型 包含 神经 网 络 模块 的 分 类 模型 、 分 类 树 模型 、 集 成 学 习 分 类 模型 。 神 经 网 络 模型 包含 多 种 应 用 ， 比 如 聚 类 、 
时 间 序 列 、 模 式 识别 ， 而 这 里 的 分 类 模型 主要 包含 人 工 神经 网 络 ， 其 立 数 为 nnet。 分 类 树 模型 主要 是 指 机 器 学 习 中 的 分 类 树 和 回归 模型 ， 主 要 包括 rpart 函 数 。 集 成 学 习 分 类 模型 主要 指 机 器 学 习 中 的 集成 学 
习 模 块 ， 其 函数 为 bagging， 通 过 改变 其 参数 ， 可 以 选择 不 同 的 分 类 模型 。 表 6-8 所 示 为 其 他 分 类 和 预测 函数 。 


表 6-8 其 他 分 类 和 预测 函数 


函数 名 


Ida() 
rpart() 


bagging() 


randomForest() 


svm() 


(1) Ida () 函数 


功能 : 构建 一 个 线性 判 


E 使 用 格式 : 


lda(formula, data, http://www.hzcourse.com/resource/read 


别 分 析 模 型 。 


构建 


构建 
构建 


-个 线性 判别 分 析 模 型 
-个 分 类 回归 树 模 型 
个 集成 学 


习 分 类 器 


Book?path-/openresources/teach ebook/uncompressed/15770/0Rl 


软件 包 
MASS 
rpart, maptree 
adabag 
randomForest 


el071 


其 中 : formula 根 据 数据 的 属性 数据 以 及 每 个 记录 对 应 的 类 别 数据 构建 一 个 线性 回归 的 公式 ; na.omit 自 动 删除 含有 缺失 值 的 观测 样本 。 


实例 : 针对 通讯 企业 的 客户 数据 ， 构 建 lda 模 型 并 进行 


代码 清单 6-10 ”建立 Ilda 模型 并 进行 分 类 预测 


THHEIdad zl 
setwd.(". /第 6#") 


Data=read. M EE E E csv") 


Data[, "A X"]-as.factor (Data[, "流失 "]) 


set.seed(1234) 


# 设 置 工作 空间 


# 读 入 数据 


?3?33 # 将 目标 变量 转换 成 因子 型 


# 设 置 随机 种 子 


# 数 据 集 随 机 抽 70% 定 义 为 训练 数据 集 ，30% 为 测试 数据 集 


ind <- sample(2, nrow(Data), replace=TRU] 
traindata «- Data[ind-- 
testdata «- Data[ind-- 


## 建 立 1dqa 分 类 模型 
library (MASS) 
lda.model«-1lda (流失 ~.， 
HEMER 


train predict-predict (lda.model,newdata-! 


1,] 


2,] 


data-traindata) 


# 输 出 训练 数据 的 分 类 结果 


# 输 出 训练 数据 的 混淆 矩阵 


train confusion=table (ac 


# 输 出 测试 数据 的 分 类 结果 


# 输 出 测试 数据 的 混淆 矩阵 


test confusion-table (ac 


test predict-predict (lda.model,newdata-testdata) 


traindata) 


E, prob-c(0.7, 0.3)) 


# 训 练 数据 集 
# 测 试 数据 集 


train B UR QI OR cbind(traindata,predictedclass-train predict$class) 


test predictdata-cbind (testdata,predictedclass-test predict$class) 


分 类 预测 I 见 代码 清单 6- 1 0。 


ctual=traindata$ 流 失 , predictedclass=train predict$class) 


tual=testdata$ 流 失 , predictedclass=test predict$class) 


(2) rpart () 函数 


功能 : 创建 一 个 分 类 回归 树 模型 ， 该 


.使 用 格式 : 


rpart(formula, data, weights, subset, na.action = na.rpart, method, model = 


函数 可 以 根据 不 同 的 参数 构建 不 同 的 模型 ， 可 以 用 于 分 类 或 者 回归 。 


FALSE, x = FALSE, y = TRU 


E, parms, control, cost, http://www.hzcourse.com/resource/read 


Book?path-/or 


部 分 参数 及 功能 说 明 见 


参数 


na.action 
method 


parms 


control 


实例 : 针对 通讯 企业 的 客户 数据 ， 构 建 rpart 模 型 并 进行 


代码 清单 6-11 构建 rpart 模 型 并 进行 分 类 预测 


fHHrparti A 


E 


UA [ERBERZNA S SGAM BR PAE 8t 
根据 树 末 端 因 变 量 的 数据 类 型 选择 分 割 方法 : anova( 连 


exp( 生存 型 ) 


设置 3 个 参数 ， 
ETE 


setwd ("./ 2 63k") # 设 置 工作 空间 
Data= uo csv ("./data/telephone.csv") 
Data [, "流失 "]=as.factor (Data[, "流失 "]) 


set.seed(1234) 


# 数 据 集 随机 抽 70% 定 义 为 训练 数据 集 
ind <- sample(2, nrow(Data), replace=TRU] 
traindata <- Data[ind-- 
testdata «- Data[ind-- 


Ht $rpartz X4 m 
library (rpart) 
library (rpart.plot) 


1,] 
2,] 


??? HIFA dE 


# 读 入 数据 
量 转 换 成 因子 型 
# 设 置 随机 种 子 


集 ，30g 为 测试 数据 集 
E, prob-c(0.7, 0.3)) 


rpart.model«-rpart (LX-., data-traindata,method-"class",cp-0.03) 


## 输 出 决策 树 图 


rpart.plot (rpart.model 


border.col 
split.cex-1, main-' & Pj Adm) 


## 预 测 结 果 


, branch-1, branch.type-2, type-1, extra-102, 


-"plue", split.col-2"red", 


train predict-predict (rpart.model,newdata-traindata, type-"class") 


# 输 出 训练 数据 的 分 类 结果 


# 输 出 训练 数据 的 混淆 矩阵 


test predict=predict (rpart.model,newdata=testdata,type="class") 


train predictdata-cbind (traindata,predictedclass-train predict) 


先 验 概率 、 
点 上 的 最 小 样本 量 、 交 又 


损失 


AR IE 


分 类 预测 1 见 代码 清单 6-1 1 o 


#CP 为 复杂 的 参数 


? (| A ACIE TE 
? # 测 试 数据 集 


说 明 


和 失 的 观测 


分 类 纯度 


D 验证 次 数 \ 复杂 ep: 


ZERI ), poisson( 计数 型 ), class( 离散 型 )， 


train confusion-table (actual-traindata$7fX,predictedclass-train predict) 
# 输 出 测试 数据 的 分 类 结果 
test predictdata=cbind(testdata,predictedclass=test predict) 
# 输 出 测试 数据 的 混淆 矩阵 
test confusion-table (actual=testdata$ 流 失 , predictedclass=test predict) 


运行 代码 清单 6-11 可 得 到 预测 结果 和 图 6-4 所 示 的 客户 流失 决策 树 图 。rpart 决 策 树 与 CART 决 策 树 类 似 ， 每 个 样本 在 通过 一 个 节 点 时 都 会 进行 一 次 判断 ， 若 结果 为 真 ， 则 样本 被 分 到 决策 树 的 左 人 出， 否则 
就 会 被 分 到 决策 树 的 右 人 出 。 例 如 ， 开 通 月 数 小 于 18 个 月 且 无 线 费用 大 于 等 于 33 的 客户 流失 了 ， 流 失 的 比例 占 总 用 户 的 39%。 


客户 流失 决策 酌 
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图 6-4 tbatt 分 类 模型 销量 决策 树 图 
(3) bagging () 函数 
| 功能 : 创建 一 个 集成 学 习 分 类 器 。 


E 使 用 格式 : 


bagging(formula, data,mfinal,control) 


其 中 ，formula 为 建立 模型 的 公式 ，data 为 训练 集 ，mfinal 表 示 算 法 的 迭代 次 数 ，control 用 于 控制 基 分 类 器 的 参数 ， 模 型 的 性 能 依赖 于 control 设 置 。 
实例 : 针对 通讯 企业 的 客户 数据 ， 构 建 bagging 模 型 并 进行 分 类 预测 见 代码 清单 6-12。 


代码 清单 6-12 ”构建 bagging 模 型 并 进行 分 类 预测 


###bagging 模 型 

setwd ("./ 第 6 章 ") # 设 置 工作 空间 
Data-read.csv("./data/telephone.csv") # 读 入 数据 

Data[, "流失 "]=as.factor (Data[, "流失 "]) ??? # 将 目标 变量 转换 成 因子 型 
set.seed(1234) # 设 置 随机 种 子 


# 数 据 集 随机 抽 70$ 定 义 为 训练 数据 集 ，30% 为 测试 数据 集 

ind <- sample(2, nrow (Data), replace-TRUE, prob=c (0.7, 0.3)) 
traindata <- Data [ind==1, ] 

testdata <- Data[ind--2,] 

HE x baggingz X4 2 

library (adabag) 

bagging.model«-bagging (it X-., data-traindata) 

## 预 测 结果 
train predict=predict (bagging.model,newdata=traindata) # 训 练 数据 集 
test predict-predict (bagging.model,newdata=testdata) # 测 试 数据 集 
# 输 出 训练 数据 的 分 类 结 
train predictdata=cbind (traindata,predictedclass=train predict$class) 
# 输 出 训练 数据 的 混淆 矩阵 


train confusion-table (actual=trainqata$ 流 失 ,Predicteqclass=train predict$class) 
# 输 出 测试 数据 的 分 类 结果 
test predictdata=cbind (testdata,predictedclass=test predict$class) 


# 输 出 测试 数据 的 混淆 给 阵 
test confusion-table (actual=testdata$ 流 失 , predictedclass=test predict$class) 


(4) randomForest () AŽ 
: 功能 : 创建 一 个 随机 森林 分 类 模型 。 


` 使 用 格式 : 


randomForest (formula, data,http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15770/OEBPS/Text/...,ntree,mtry,impartance) 


其 中 : formula 为 建立 模型 的 公式 ，data 为 训练 集 ，ntree 指 随机 森林 中 树 的 数目 ，mtry 用 来 决定 在 随机 森林 中 决策 树 的 每 次 分 支 时 所 选择 的 变 两 个 数 ，impartance 用 来 计算 各 个 变量 在 模型 中 的 重要 
值 。 


实例 : 针对 通讯 企业 的 客户 数据 ， 构 建 randomForest 模 型 并 进行 分 类 预测 ， 见 代码 清单 6-13。 


代码 清单 6-13 ”构建 randomForest 模 型 并 进行 分 类 预测 


iHHErandomFores tf 7? 

setwd("./f$ 63") # 设 置 工作 空间 
Data-read.csv("./data/telephone.csv") # 读 入 数据 

Data[, "流失 "]=as.factor (Data[, "流失 "]) 塌 将 目标 变量 转换 成 因子 型 
set.seed(1234) # 设 置 随机 种 子 


# 数 据 集 随机 抽 70% 定 义 为 训练 数据 集 ，30% 为 测试 数据 集 

ind <- sample(2, nrow (Data), replace-TRUE, prob=c (0.7, 0.3)) 
traindata <- Data [ind==1, ] 

testdata <- Data[ind--2,] 

HE x randomForest4 7! 

library (randomForest 
randomForest.model«-randomForest (A X-., data-traindata) 
## 预 测 结果 
test predict=predict (randomForest.model,newdata-testdata) # 测 试 数据 集 
# 输 出 训练 数据 的 混淆 矩阵 
train confusion-randomForest .model$confusion 
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test confusion-table (actual-testdata$ 7 ,predictedclass-test predict) 


— 


(5) svm () 函数 
. 功能 : 创建 一 个 支持 向 量 机 模型 。 


` 使 用 格式 : 


svm (formula, data, http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15770/OEBPS/Text/...,type,kernel) 


其 中 ，formula 为 建立 模型 的 公式 ，data 为 训练 集 ，type 是 指 建 立 模型 的 类 别 。 

type 可 取 的 值 有 : C-classification，nu-classification，one-classification，eps-regression，nuregression。 在 这 五 种 类 型 中 ， 前 三 种 是 针对 于 字符 型 结果 变量 的 分 类 方式 ， 后 两 种 则 是 针对 于 数量 
结果 变量 的 分 类 方式 。 

kernel 参 数 有 四 个 可 选 核 函 数 ， 分 别 为 jinear 线 性 、polynomial 多 项 式 、radial basis 径 向 基 、sigmoid 神 经 网 络 核 函数 。 

实例 : 针对 通讯 企业 的 客户 数据 ， 构 建 sm 模型 并 进行 分 类 预测 见 代码 清单 6-14。 


代码 清单 6-14 ”构建 svm 模 型 并 进行 分 类 预测 


间 ##Svm 模 型 

setwd ("./ 第 6 章 ") # 设 置 工作 空间 
Data=read.csv("./data/telephone.csv") # 读 入 数据 

Data[, "流失 "]=as.factor (Data[, "流失 "]) ?? 昔 将 目标 变量 转换 成 因子 型 
set.seed(1234) # 设 置 随机 种 子 


# 数 据 集 随机 抽 70% 定 义 为 训练 数据 集 ，30% 为 测试 数据 集 

ind <- sample(2, nrow (Data), replace-TRUE, prob=c (0.7, 0.3)) 
traindata <- Data[ind--1,] 

testdata <- Data[ind--2,] 

## 建 立 sSvm 模 型 

library (e1071) 

svm.model«-svm(iX-., data-traindata) 

## 预 测 结果 

train predict-predict (svm.model,newdata=traindata) # 训 练 数据 集 
test predict-predict (svm.model, newdata=testdata) # 测 试 数据 集 
# 输 出 训练 数据 的 分 类 结果 
train predictdata-cbind (traindata,predictedclass-train predict) 
# 输 出 训练 数据 的 混淆 矩阵 
train confusion=table (actual=traindata$ 流 失 , predictedclass=train predict) 
# 输 出 测试 数据 的 分 类 结果 
test predictdata-cbind (testdata,predictedclass-test predict) 
HIR d ACIE 89 3078 4E RF 
test confusion-table (actual-testdata$ 7 ,predictedclass-test predict) 


6.7 “分 类 与 预测 算法 评价 


前 面 介绍 了 logistic 回 归 、 决 策 树 、naivebayes、KNN 等 多 种 分 类 算法 。 在 建立 选择 分 类 模型 时 ， 我 们 需要 从 中 选择 表现 更 优 的 模型 ， 这 就 涉及 模型 评价 的 问题 。 模 型 预测 效果 评价 通常 用 相对 绝对 误 
差 、 平 均 绝对 误差 、 根 均 方 差 、 相 对 平方 根 误 差 等 指标 来 衡量 。 
1. 绝 对 误差 与 相对 误差 


设 Y 表 示 实 际 值 ，7 表 示 预 测 值 ， 则 称 E 为 绝对 误差 (Absolute Error) ， 计 算 公式 如 下 : 


E-Y-Y 


e 为 相对 误差 (Relative Error) ， 计 算 公 式 如 下 : 


2. 平 均 绝对 误差 


平均 绝对 误差 (Mean Absolute Error, MAE) 定义 如 下 : 


i n ] n P 
MAE- — > |E|-2 — > Y, - Yi 
N i= N i= 


式 中 各 项 的 含义 如 下 。 

| MAE: 平均 绝对 误差 ; 

. Ei: 第 i 个 实际 值 与 预测 值 的 绝对 误差 ; 

OY 第 i 个 实际 值 ; 

Yi RARE. 

由 于 预测 误差 有 正 有 负 ， 为 了 避免 正 负 相抵 消 ， 故 取 误 差 的 绝对 值 进行 综合 并 取 其 平均 数 ， 这 是 误差 分 析 的 综合 指标 法 之 一 。 
3. 均 方 误 差 与 均 方 根 误差 


均 方 误差 (Mean Squared Error, MSE) 与 均 方 根 误差 (Root Mean Squared Error, RMSE) 皆 是 误差 分 析 的 综合 指标 法 之 一 。 定 义 如 下 : 


YE =y (Y y| 


上 式 中 ，MSE 表 示 均 方 误 差 ，RMSE 表 示 均 方 根 误差 ， 其 他 符号 同 前 。 


均 方 误差 是 预测 误差 平方 之 和 的 平均 数 ， 它 避免 了 正 负 误 差 不 能 相 加 的 问题 。 由 于 对 误差 F 进 行 了 平方 ， 加 强 了 数值 大 的 误差 在 指标 中 的 作用 ， 从 而 提高 了 这 个 指标 的 灵敏 性 。 均 方 误 差 是 误差 分 析 的 综 
合 指标 法 之 一 。 


均 方 误差 的 平方 根 代表 预测 值 的 离散 程度 ， 也 叫 标准 误差 ， 最 佳 拟 合 情 况 为 RMSE=0。 均 方 根 误差 也 是 误差 分 析 的 综合 指标 之 一 。 
4. 识 别 准 确 度 


识别 准确 度 (Accuracy) 定义 如 下 : 


IF+FN 


X 100% 
IP--TN + FP + FN 


式 中 各 符号 说 明 如 下 。 
- TP (True Positives) : 正确 的 肯定 表示 正确 肯定 的 分 类 数 ; 
TN (True Negatives) : 正确 的 否定 表示 正确 否定 的 分 类 数 ; 
: FP (False Positives) : 错误 的 肯定 表示 错误 肯定 的 分 类 数 ; 
: FN (False Negatives) : 错误 的 否定 表示 错误 否定 的 分 类 数 。 
5. 识 别 精确 率 


识别 精确 率 (Precision) 定义 如 下 : 


IP 
Precision- ————— X 100% 
TP + FP 


反馈 率 (Recall) 定义 如 下 : 


TP 
Recall= ———— x 100% 
TP+TN 


7. 混 淆 矩阵 
混淆 矩阵 是 可 视 化 工具 ， 特 别 用 于 监督 学 习 ， 在 无 监督 学 习 时 一 般 称 为 匹配 憩 阵 。 和 矩阵 的 列表 示 预 测 类 的 实例 ， 行 表示 实际 类 的 实例 。 表 6-9 所 示 为 一 个 二 分 类 预测 模型 的 混淆 矩阵 示例 。 
表 6-9 混淆 和 矩阵 


Predicted 


Actual 
TN 


8.ROC 曲 线 和 PR 曲线 
ROC 曲 线 和 PR 曲线 都 常用 于 模型 的 评价 。 


受 试 者 工作 特性 (Receiver Operating Characteristic, ROC) 曲线 是 一 种 非常 有 效 的 模型 评价 方法 ， 可 为 选 定 临 界 值 给 出 定量 提示 。 将 灵敏 度 (Sensitivity) 设 在 纵 轴 ，1- 特 异性 (1-Specificity) i 
在 横 轴 ， 就 可 得 出 ROC 曲 线 图 。 该 曲线 下 的 积分 面积 (Area) 大 小 与 每 种 方法 优 劣 密切 相关 ， 反 上 映 分 类 器 正确 分 类 的 统计 概率 ， 其 值 越 接近 1 说 明 该 算法 效果 越 好 。 


PR 曲线 指 的 是 Precision Recall 曲 线 。 如 果 是 分 类 器 的 话 ， 通 过 调整 分 类 阔 值 ， 可 以 得 到 不 同 的 P-R 值 ， 从 而 可 以 得 到 一 条 曲线 〈 纵 坐标 为 识别 精确 率 ， 横 坐标 为 反馈 率 ) 。 通 常 随 着 分 类 阔 值 从 大 到 小 
变化 ， 识 别 精 确 率 减 小 ， 反 馈 率 增加 。 比 较 两 个 分 类 器 好 坏 时 ，PR 曲 线 越 往 坐 标 (1, 1) 的 位 置 靠近 越 好 。 


R 中 主要 使 用 ROCR 包 绘制 ROC 曲 线 和 PR 曲线 。ROCR 包 中 主要 的 函数 是 : prediction 和 performance。 前 者 是 将 预测 结果 和 真实 标签 组 合 在 一 起 ， 生 成 一 个 prediction 对 象 ， 然 后 在 用 performance 函 
数 ， 按 照 给 定 的 评价 方法 ， 生 成 一 个 performance 对 象 ， 最 后 直接 对 performance 对 象 使 用 plot 函 数 就 能 绘制 出 相应 的 ROC 曲 线 和 PR 曲线 。 


(1) prediction () 函数 
使 用 格式 : 


prediction (predictions, labels) 


其 中 ，predictions 为 预测 结果 ; labe| 为 真实 的 分 类 向 量 。 
(2) performance () RAŽ% 


.使 用 格式 : 


performance (prediction.obj, measure, x.measure-"cutoff", http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15770/OEBPS/Text/...) 


其 中 : prediction.obj 为 一 个 prediction 对 象 ; measure 为 各 种 评价 指标 ， 如 recall，precision，tpr，fpr 等 ， 详 见 帮助 文档 ，x.measure 与 measure 类 似 。 在 绘制 ROC 曲 线 


时 ，measure="tpr"，x.measure="fpr"; PR 曲线 measure= "prec"，x.measure= "rec"。tpr，fpr，prec，rec 分 别 表示 真正 率 (true positive rate) ， 假 正 率 (false positive rate) ， 识 别 精确 率 和 反馈 


(3) plot () 函数 


E SUE EN 


plot (x, y, colorize-FALSEhttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15770/OEBPS/Text/...) 


- 实例 : 画 出 代码 清单 6-15 中 1]da 模 型 的 ROC 曲 线 和 PR 曲线 图 。 


代码 清单 6-15 “ROC 曲 线 和 PR 曲线 图 代码 


THHEROC H Ze PR] Z, 
library (ROCR) 
library (gplots) 
Tp 25 


train predict-predict (1da.model, newdata-traindata) # 训 练 数据 集 
test predict-predict (1da.model,newdata-testdata) 330 试 数据 集 
par (mfrow=c (1, 2)) 

IHEROC H AR 

# 训 练 集 


predi<-prediction (train predict$posterior[,2],traindata$ 流 失 ) 


perfor«-performance (predi, "tpr", "fpr") 


plot (perfor, col-"red",type-"l",main-"ROCH)A",lty-1) EDI 25 4& 85 ROC B 2X 
# 测 试 集 
predi2<-prediction (test predict$posterior[,2],testdata$ 流 失 ) 


perfor2«-performance (predi2,"tpr","fpr") 
par (new-T) 
plot (perfor2,col-"blue",type-"l",pch-2,1lty-2) T5 X 4E hJ ROC H 2X, 
abline (0,1) 
legend ("bottomright", legend = c(" 训 练 集 ", "测试 集 ") ,bty="n", 
lty = c(1, 2), col = c("red", "blue")) $E 
##PR 曲 线 


# 训 练 集 

perfor<-performance (predi, "prec", "rec") 

plot (perfor, col="red",type="1",main="PR 曲 线 ", xlim=c (0,1) ,ylim=c (0,1),1lty=1) #92% 4% f9 PRH 2, 
# 测 试 集 

perfor2«-performance (predi2,"prec", "rec") 

par (new=T) 

plot (perfor2, col="blue", type="1", pch=2, xlim=c (0,1) ,ylim=c (0,1),1ty=2) # 测 试 集 的 PR 曲线 
abline (1,-1) 
legend ("bottomleft", legend = c(" 训 练 集 ", "测试 集 ") ,bty="n", 
lty = c(1, 2), col = c("red", "blue")) $E 


运行 代码 清单 6-15 得 到 图 6-5 所 示 的 ROC 曲 线 和 PR 曲线 。 
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本 章 介 绍 了 分 类 与 预测 建 模 的 多 种 方法 及 R 语 言 的 实现 过 程 。 其 中 常用 的 分 类 与 预测 建 模 方法 有 : 回归 分 析 (ORE). AR, ATRN, KNNEUZX. RUDKA 
等 等 。 最 后 介绍 了 分 类 与 预测 算法 的 评价 方法 。 通 常用 相对 绝对 误差 、 平 均 绝 对 误差 、 根 均 方 差 、 相 对 平方 根 误差 等 指标 或 混淆 矩阵 、ROC 曲 线 等 方法 去 衡量 。 


69 ”上 机 实验 


1. 实 验 目的 

. 掌握 回归 模型 ， 对 模型 进行 回归 诊断 和 自 变量 选择 ， 并 利用 模型 进行 预测 。 

. 掌握 人 工 神 经 网 络 和 CART 决 策 树 构建 的 分 类 模型 。 

2. 实 验 内 容 

- 对 银行 贷款 拖欠 率 数 据 进 行 logistics 回 归 ， 数 据 见 “data/bankloan.csv”。 将 数据 分 成 训练 集 和 测试 集 ， 用 训练 集 构建 回归 模型 并 进行 回归 诊断 和 自 交 量 选择 ， 并 利用 构建 好 的 模型 对 测试 集 进行 预测 。 


* 根据 电量 趋势 增长 指标 、 线 损 指 标 及 告警 类 指标 对 用 户 是 否 窃 漏电 进行 分 类 ， 数 据 见 “data/model,csv ”， 分 别 使 用 LM 神 经 网 络 和 CART 决 策 树 实 现 分 类 预测 模型 ， 利 用 混淆 矩阵 和 ROC 曲 线 对 模型 进 


行 评 价 。 
3. 实 验方 法 与 步骤 
(1) 实验 一 
1) 打开 R 软 件 ， 把 “data/bankloan.csv” 数 据 导入 R 中 。 
2) 把 数据 随机 分 成 两 个 部 分 : 一 部 分 用 于 训练 ; 另 一 部 分 用 于 测试 。 
3) 使 用 glm () 函数 及 训练 数据 构建 logistics 回 归 模 型 。 


4) 使 用 step () 函数 对 模型 进行 自 变量 选择 。 


5) 使 用 回归 诊断 相关 诊断 对 模型 进行 异常 值 检验 、 多 重 共 线性 检验 、 误 差 自 相关 性 检验 。 
6) 使 用 predict () 函数 对 测试 集 进行 预测 。 

(2) 实验 二 

1) 把 “data/model.csv” 数 据 导入 R 中 。 

2) 把 数据 随机 分 成 两 个 部 分 : 一 部 分 用 于 训练 ， 另 一 部 分 用 于 测试 。 


3) 使 用 tree () 函数 构建 CART 决 策 树 模型 ， 使 用 predict () 函数 和 构建 的 CART 决 策 树 模型 分 别 对 训练 和 测试 数据 进行 分 类 ， 并 与 真实 值 进行 对 比 ， 得 到 模型 的 正确 率 ， 同 时 使 用 prediction () A 
数 、performance () 函数 和 plot () 函数 画 出 ROC 曲 线 。 


4) 使 用 nnet () 函数 构建 人 工 神经 网 络 模型 ， 使 用 predict () 函数 和 构建 的 人 工 神经 网 络 模型 分 别 对 训练 和 测试 数据 进行 分 类 ， 参 考 第 3) 步 得 到 模型 的 正确 率 、 混 淆 和 矩阵 和 ROC 曲 线 。 
5) 对 比分 析 CART 决 策 树 模 型 和 人 工 神 经 网 络 模型 针对 窃 漏 电 数 据 分 类 结果 的 好 坏 。 

4 思考 与 实验 总 结 

1) 使 用 其 他 分 类 预测 的 方法 对 “data/model.csv” 数 据 进 行 分 类 ， 对 比分 析 不 同 分 类 方法 的 分 类 结果 的 好 坏 。 


2) 设置 模型 参数 时 ， 如 何 针对 数据 特征 进行 参数 的 择优 选择 ? 


第 / 草 聚 类 分 析 


聚 类 分 析 是 研究 如 何 对 事物 进行 分 类 的 一 种 多 元 统计 方法 。 对 事物 进行 分 类 ， 进 而 归纳 并 发 现 其 规律 已 成 为 人 们 认识 世界 、 改 造 世界 的 一 种 重要 方法 。 分 类 问题 在 科学 研究 、 生 产 实践 和 社会 生活 中 到 
处 存在 。 例 如 : 地 质 勘探 中 根据 物探 、 化 探 的 指标 将 样本 进行 分 类 ; 古生物 研究 中 根据 挖掘 出 的 骨骼 形状 和 尺寸 将 它们 分 类 ; 大 坝 监 控 中 由 于 所 得 的 观测 数据 量 十 分 庞大 ， 有 时 亦 需 将 它们 分 类 归并 ， 获 得 
其 典型 代表 再 进行 深入 分 析 等 。 


由 于 对 象 的 复杂 性 ， 仅 赁 经 验 和 专业 知识 有 时 不 能 达到 确切 分 类 的 目的 ， 于 是 数学 方法 就 被 引进 到 分 类 问题 中 来 。 聚 类 分 析 方 法 应 用 相当 广泛 ， 已 经 被 广泛 用 于 考古 学 、 地 质 勘探 调查 、 天 气 预报 、 作 


物品 种 分 类 、 土 壤 分 类 、 微 生物 分 类 ， 在 经 济 管理 、 社 会 经 济 统计 部 门 ， 也 用 聚 类 分 析 法 进行 定量 分 类 。 
聚 类 分 析 根 据 事 物 彼此 不 同 的 属性 进行 辨认 ， 将 具有 相似 属性 的 事物 聚 为 一 类 ， 使 得 同一 类 的 事物 具有 高 度 的 相似 性 。 这 使 得 聚 类 分 析 可 以 很 好 地 解决 无 法 确定 事物 属性 的 分 类 问题 。 
聚 类 算法 种 类 繁多 ， 且 其 中 绝 大 多 数 可 以 用 R 实 现 。 下 面 将 选取 普及 性 最 广 、 最 实用 、 最 具有 代表 性 的 五 种 聚 类 算法 进行 介绍 。 
. 区- 均值 聚 类 (K-Means) 
“ KK- 中 心 点 聚 类 (K-Medoids) 
- 密度 聚 类 (Densit-based Spatial Clustering of Application with Noise, DBSCAN) 
. 层次 聚 类 (系统 聚 类 Hierarchical Clustering, HC) 


“期望 最 大 化 聚 类 (Expectation Maximization, EM) 


EA 
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聚 类 分 析 中 使 用 最 广泛 的 算法 是 K-Means 算 法 。K-Means 算 法 属于 聚 类 分 析 方 法 里 较为 经 典 的 一 种 。 由 于 该 算法 的 效率 高 ， 所 以 在 对 大 规模 数据 进行 聚 类 时 被 广泛 应 用 。 目 前 ， 许 多 算法 均 围 绕 着 该 算 
法 进行 扩展 和 改进 。 
在 实际 应 用 中 ，K-Means 算 法 在 商业 上 常用 于 客户 价值 分 析 。 如 识别 客户 价值 应 用 的 最 广泛 的 RF M 模 型 便 是 通过 K-Means 算 法 进行 划分 分 类 ， 最 终 得 到 不 同 特征 的 客户 群 。 


在 R 中 使 用 kmeans () 函数 进行 K-Means 聚 类 分 析 。 在 做 K-Means 聚 类 分 析 之 前 ， 需 要 观察 数据 的 量 纲 差异 及 是 否 存 在 异常 值 。 若 数据 量 纲 差别 太 大 ， 则 需要 用 scale () 函数 做 中 心 标 准 化 ， 消 除 量 
纲 影响 。 若 存在 异常 值 ， 则 需要 做 预 处 理 ， 否 则 会 严重 影响 划分 结果 。 


.使 用 格式 : 


kmeans(x, centers, iter.max = 10, nstart = 1, algorithm = c("Hartigan-Wong", "Lloyd", "Forgy", "MacQueen")) 


ih: x 为 聚 类 分 析 的 数据 集 ; centers 为 预 设 类 别 数 k; iter.max 为 迭代 的 最 大 值 ， 黑 认为 10; nstart 为 选择 随机 起 始 中 心 点 的 次 数 ， 其 默认 值 为 1， 但 取 较 多 的 次 数 可 以 改善 聚 类 效果 ; algorithm 为 聚 
类 的 算法 。algorithm 的 参数 值 分 别 为 Hartigan-Wong 距 离 算法 、Lloyqd 距 离 算 法 、For-gy 距 离 算 法 、MacQueen 距 离 算法 。 通 常情 况 下 ，Hartigan-Wong 距 离 算 法 性 能 优良 ， 为 默认 算法 。 


M 


“ 实例 : 使 用 K-means 聚 类 分 析 的 餐饮 客户 价值 分 析 。 


部 分 餐饮 客户 的 消费 行为 特征 数据 见 表 7-1。 根 据 这 些 数据 将 客户 分 类 成 不 同 客户 群 ， 并 评价 这 些 客 户 群 的 价值 。 


表 7-1 消费 行为 特征 数据 
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* 数 据 详 见 : 第 7 章 / 示 例 程 序 /data/consumption_data.csv 
采用 K-Means 聚 类 算法 ， 设 定 聚 类 个 数 K 为 3， 距 离 国 数 默 认为 欧 氏 距离 。 
K-Means 聚 类 算法 的 R 语 言 代码 如 代码 清单 7-1 所 示 。 


代码 清单 7-1 K-Means 聚 类 算法 代码 


##K-Means 聚 类 

# 设 置 工作 空间 

setwd ("FF:/ 数 据 及 程序 /chapter5/ 示 例 程序 ") 
# 读 入 数据 

Data «-read.csv("./data/consumption data.csv",header=T) [,2:4] 
#K-Means 聚 类 分 析 建 模 ， 聚 类 个 数 为 3 
km=kmeans (Data, center-3) 

# 查 看 聚 类 结果 

print (km) 

# 聚 类 后 各 类 数据 所 占 比例 
km$size/sum(km$size) 

TERCER RD 


Data.cluster «-data.frame (Data, km$cluster) 


Datal «-Data [which (Data.cluster$km.cluster--1),] 
Data2 «-Data [which (Data.cluster$km.cluster--2),] 
Data3 «-Data [which (Data.cluster$km.cluster--3),] 
FEP DTA L" SEE USC 

par (mfrow-c (1,3)) 

plot (density (Datal[,1]),col-2"red",main-"R") 

plot (density (Datal[,2]),col-2"red",main-"F") 

plot (density (Datal[,3]),col-2"red",main-"M") 

# 客 户 分 群 "2" 的 概率 密度 函数 图 

par (mfrow-c (1,3)) 

plot (density (Data2[,1]) , col-2"red",main-"R") 

plot (density (Data2[,2]) , col-2"red",main-"F") 

plot (density (Data2[,3]) , col-2"red",main-"M") 

# 客 户 分 群 "3" 的 概率 密度 函数 图 

par (mfrow-c (1,3)) 

plot (density (Data3[,1]) , col2"red",main-"R") 

plot (density (Data3[,2]) ,col-"red",main-"F") 

plot (density (Data3[,3]) , col-2"red",main-"M") 


执行 K-Means 聚 类 算法 输出 的 结果 如 下 。 


> print (km) 
K-means clustering with 3 clusters of sizes 372, 357, 211 
Cluster means: 


R F M 
1 15.41667 7.376344 431.9666 
2 18.43978 11.238095 1207.5434 
3 16.23223 10.819905 1925.1083 
Clustering vector: 

[1] 12113112 2 ] 33332211132 1333132112211223] 
[42]. 3 12 1.22.2 333 33 2 122 32 122 123 12-213.122 1312 t3 3 1 
[B3] 2 TT 2 2. 1T 122 1I 122 3.1 I 3.] 232 1122 2231111] 2 334 

[124] 11112123 | 2212312212] l333222113531322211j 
[165] 20222323131. L3.1 2 121222272227239237] 2122 
[206] 321221122 ] 122232212322 1 3231122] 22113 
[247] 12 112 33 122 203 2127:27 33 13 3 这 3.2 3 13 13222213] 
288] 22121 1 312132212321222 2 212222221231312 
[320] 2.2 1.3 2.3 21 3.31 1222112 1.3 2121722 21322 22 
[370] qua 22 2 12 3 3 212222 T323 2 2 3392310121212: 3 
[411] 1L. 9222 32 1222838 122123222 13223122232 12 2 1312 
[452] 12 22 31231121112331222112322323333 32 2 1.3 
[493] 1.2 IL 1.3.22 31 32 21 2-23 12 3232 2 31232312 1:33 3] 2 11 
[534] 3 13 22 2 32 3123 Lrl3 12223123232 Jg 3l $333 LB3 
[575] 222 31223] 12 22 22 12 22111322 2213 1 
[616] 1 223 2 ] 3 2 22 l3 1122393 2322113122222] 
[657] 3223 222233 32 22 303373 2 13 3 2122322323 
[698] 322223 33121 121121 12333 ] ] 323] 222117 
739] 1 1 33111123] 3231223212212212 3313 21112] 
[780] 2 232 3313122713] 12221] 3 3.22 1 ZG X. 11312] 
[821] 212 2k 12 L2 I3 1127222 3172 34 3: 362 | 2 ] 2939 32232 
[862] 2 ] 31222123112331313212213221232123211231 
[903] 3213 332123213332112222 3221323333232222] 
Within cluster sum of squares by cluster: 
[1] 19276257 16978548 132279291 
(between SS / total SS = 65.0 $) 
Available components: 
[1] "cluster" "centers" "totss" "withinss" "tot.withinss" 
[6] "betweenss" "size" "iter" "ifault" 


结果 中 显示 了 三 个 类 别 所 含 的 样本 数 (sizes) 分 别 为 372，357，211; 各 类 别 的 中 心 点 坐标 (Cluster means) 分 别 为 : (15.41667, 7.376344, 431.9666) , 
(18.43978, 11.238095, 1207.5434) , (16.23223, 10.819905, 1925.1083) ; 从 聚 类 向 量 (Clustering vector) 中 看 到 各 个 样本 所 属 的 类 的 标号 ; 之 后 给 出 各 类 别 的 组 内 平方 和 ， 分 群 3 最 高 ， 且 组 
间 平 方 和 占 总 平方 和 的 65%， 该 值 可 用 于 比较 不 同类 别 数 取 值 时 的 聚 类 结果 ， 从 而 找 出 最 优 聚 类 结果 ， 该 值 越 大 表明 组 内 差距 越 小 、 组 间 差 距 越 大 ， 聚 类 效果 越 好 ; 最 后 给 出 了 其 他 结果 参数 供 查看 ， 使 用 
格式 如 : km$totss， 可 以 查看 总 平方 和 。 


图 7-1、 图 7-2、 图 7-3 是 R 语 言 绘制 的 不 同 客户 分 群 的 概率 密度 函数 图 ， 通 过 这 些 图 能 直观 地 比较 不 同 客户 群 的 价值 。 


由 上 面 的 客户 分 群 的 概率 密度 函数 图 进行 分 群 特点 分 析 如 下 。 

分 群 1 特 点 : R 主 要 集中 在 10~30 天 之 间 ; 消费 次 数 集中 在 5~10 次 ; 消费 金额 在 200~800。 
分 群 2 特点 : R 分 布 在 15~35 天 之 间 ; 消费 次 数 集中 在 5~25 次 ;消费 金额 在 800~1600。 
分 群 3 特点 : R 分 布 在 8~20 天 之 间 ; 消费 次 数 集中 在 8~20 次 ; 消费 金额 在 1600~2000。 


对 比分 析 : 分 群 1 时 间 间 隔 中 等 ， 消 费 次 数 少 ， 而 且 消 费 金 额 较 小 ， 是 价值 较 低 的 客户 群体 ;分 群 2 的 时 间 间 隔 、 消 费 次 数 和 消费 金额 处 于 中 等 水 平 ， 分 群 3 的 时 间 间 隔 较 短 ， 消 费 次 数 和 消费 金额 处 于 
较 高 水 平 ， 是 高 消费 、 高 价值 人 群 。 
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图 7-2 ”分群 2 的 概率 密度 函数 图 
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图 7-3 分群 3 的 概率 密度 函数 图 


7.2 层次 聚 类 算法 

聚 类 分 析 中 的 层次 聚 类 又 称 系统 聚 类 或 系谱 聚 类 ， 是 目前 国内 外 使 用 最 多 的 方法 之 一 。 层 次 聚 类 法 讨论 的 对 象 是 大 量 的 样品 ， 要 求 能 合理 地 对 所 有 样品 进行 分 类 ， 没 有 任何 模式 可 供 参 考 或 依循 ， 即 是 
在 没有 先 验 知识 的 情况 下 进行 的 。 由 于 类 与 类 之 间 的 距离 有 多 种 定义 方法 ， 不 同 的 定义 法 就 产生 了 不 同 的 层次 聚 类 法 。 

(1) dist () RX 

TERFHIBFHESIKRERSS SEGA EA REAGEER, TERISESEXEGIBISHEESBJERZIUJdist () AL 


.使 用 格式 : 


dist(x, method = "euclidean",diag = FALSE, upper = FALSE, p = 2) 


其 中 : x 是 样本 矩阵 或 者 数据 框 ; method 表 示 计 算 距离 的 方法 ， 取 值 有 euclidean ( 欧 几 里 德 距离 ， 即 欧 氏 距离 ) , maximum ( 切 比 雪夫 距离 ) , manhattan (曼哈顿 距离 ， 即 绝对 值 距 离 ) 、 
canberra (Lance 距 离 ) , minkowski ( 明 可 夫 斯 基 距 离 ， 使 用 时 要 指定 p 值 ) binary (定性 变量 距离 ， 默 认 选 择 euclidean) ; diag 为 TRUE 的 时 候 给 出 对 角 线 上 的 距离 ; upper 为 TURE 的 时 候 给 出 上 三 
FARER ERU B. 


(2) hclust () 函数 
层次 聚 类 分 析 算 法 在 Ri 召 言 中 所 用 到 的 函数 为 hclust () . 


使 用 格式 : 


hclust(d, method = "complete", members = NULL) 


其 中 : d 为 待 处 理 数据 集 样本 间 的 距离 矩阵 ， 可 用 dist () 函数 计算 得 到 ; method 人 参数 用 于 选择 类 的 合并 方法 ， 有 single (最 短 距离 法 ) . complete (最 长 距离 法 ) . median (中 间距 离 法 ) 、 
mcquitty (相似 法 ) 、average (类 平均 法 ) 、centroid (重心 法 ) 、ward ( 离 差 平方 和 法 ) ， 默 认 选 择 complete 方 法 ; 参数 members 用 于 指出 每 个 待 聚 类 样本 点 / 复 是 由 几 个 单 样本 构成 ， 该 参数 默认 值 
为 NULL， 表 示 每 个 样本 点 本 身 即 为 单 样本 。 


(3) cutree () AŽ 
cutree () 函数 可 以 对 hclust () 函数 的 聚 类 结果 进行 剪 枝 ， 即 选择 输出 指定 类 别 数 的 层次 聚 类 结果 。 


` 使 用 格式 : 


cutree(tree, k = NULL, h = NULL) 


其 中 ，tree 为 hclust () 的 聚 类 结果 ; 参数 k 与 h 用 于 控制 选择 输出 的 结果 。 
(4) rect.hclust () 函数 
函数 rect.hclust () 可 以 在 plot () 函数 形成 的 聚 类 树 中 将 指定 类 别 中 的 样本 分 支 用 矩形 框 表 示 出 来 ， 有 助 于 直观 分 析 聚 类 结果 。 


.使 用 格式 : 


rect.hclust(tree, k = NULL, which = NULL, x = NULL, h = NULL, border = 2, cluster = NULL) 


其 中 : tree7ghclust () 函数 的 聚 类 结果 ; SAk ShA FRR AR; whichFBT-XXPEENICERZSbUrRES US (由 左 人 至 右 的 顺序 ) 的 类 ， 为 数值 型 向 量 ; border 参 数 用 于 控制 矩形 框 的 边框 颜 


X): 对 R 中 的 示例 数据 集 USArtrests 进 行 等 距 抽 样 ， 并 使 用 不 同 参 数 设 置 进行 层次 聚 类 ， 对 聚 类 结果 进行 剪 枝 及 绘制 聚 类 树 ， 代 码 见 代码 清单 7-2。 


代码 清单 7-2 ”hclust 层 次 聚 类 算法 代码 


TUER REA 

# 生 成 等 差 序列 

n<-seq (1, 50,by=4) 

# 对 示例 数据 集 USArrests 进 行 等 差 抽样 

(x«-USArrests [n, ]) 

# 聚 类 的 合并 方法 为 "complete" 

hcl=hclust (dist (x), method = "complete") 

# 将 数据 中 心 标准 化 后 聚 类 

hc2=hclust (dist (scale(x)), method = "complete") 

# 聚 类 的 合并 方法 为 "ave" 

hc3-hclust (dist (x), method = "ave") 

# 查 看 聚 类 结果 

print (hcl);print (hc2) ;print (hc3) 

## 对 聚 类 结果 进行 前 枝 

1/810] 3 Bos JE cut ree () 中 的 参数 K 控 制 输出 聚 类 结果 

utree (hcl, k-4) 

tree (hc2,k-4) 

tree (hc3, k=4) 

18 3144 JC cut ree ( 中 的 参数 H 控 制 输出 聚 类 结果 

tree (hcl,h-50) 

tree (hc2,h-2) 

tree (hc3,h-50) 

会 制 聚 类 树 ， 并 使 用 rect .hclust () 在 聚 类 树 中 查看 聚 类 结果 
绘制 聚 类 树 

t (hcl) 

t (hc2) 

lot (hc3) 

17H 4870 JE HB AA ZH AE TEE ZEE 

rect.hclust (hc3,k-4,border = "red") 

EMRA EHEH TE h 25 EAR 7100 RAER 

rect.hclust(hc3,h = 100,border = "dark grey") 
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*4 个 分 类 的 聚 类 结果 见 图 7-6。 


绘制 出 的 聚 类 树 见 图 7-4、 图 7-5、 图 7-6。 
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hclust(*,"complete") 


图 7-4 complete% Z& 4 
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图 7-5 ”中心 标准 化 后 的 complete 聚 类 树 
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(3) 
dist(X) 


hclust( *,"average") 


图 7-6 ”average 聚 类 树 


从 图 中 可 以 看 出 ， 在 聚 类 树 的 最 下 端 ， 每 个 样本 独自 为 一 类 ， 越 往 上 ， 一 条 分 支 里 的 样本 越 多 ， 直 至 所 有 的 样本 聚 为 一 类 。 中 心 标准 化 后 的 数据 所 生成 的 聚 类 树 与 不 作 量 纲 处 理 的 数据 所 生成 的 聚 类 树 
有 明显 区 别 ， 说 明 量 纲 对 层次 聚 类 法 的 结果 有 很 大 的 影响 。 不 同 的 类 距离 定义 所 生成 的 聚 类 树 也 会 不 同 。 


7.3 FERKA 


[3 


聚 类 分 析 算 法 发 展 至 今 ， 已 经 发 展 出 了 多 种 多 样 的 算法 。 按 照 聚 类 分 析 的 计算 方法 大 致 可 分 为 如 下 几 种 : 划分 法 、 层 次 法 、 密 度 算法 、 图 论 聚 类 法 、 网 格 算法 、 模 型 算法 。 


R 语 言 里 面 实现 的 聚 类 分 析 算 法 除了 之 前 介绍 过 的 两 种 ， 还 包括 : K- 中 心 点 聚 类 、 密 度 聚 类 以 及 EM 聚 类 ， 其 主要 相关 函 数 如 表 7-2 所 示 。 


表 7-2 有 聚 类 主要 函数 列表 


DIT 软件 包 


pam() 构建 一 个 KK- 中 心 点 聚 类 模型 cluster 
dbscan() 构建 一 个 密度 聚 类 模型 fpc 
Mclust() 构建 一 个 EM RERA mclust 


(1) pam () RŽ 
功能 : 构建 一 个 K- 中 心 点 聚 类 模型 。 


` 使 用 格式 : 


pam(data, k, diss = inherits(x, "dist"), metric = "euclidean",medoids = NULL, 
stand = FALSE, cluster.only = FALSE，…) 


其 中 : data 为 待 聚 类 的 数据 集 ; [为 待 处 理 数据 的 类 别 数 ; metric 用 于 选择 样本 点 间距 离 测算 的 方式 ， 可 供 选择 的 有 “euclidean” 与 “manhattan”; medoids 默 认 取 NULL， 即 由 软件 选择 出 中 心 点 
样本 ， 也 可 以 设 定 一 个 k 维 向 量 来 指定 初始 点 ;stand 用 于 选择 对 数据 进行 聚 类 前 是 否 需要 进行 标准 化 ; cluster.only 用 于 选择 是 否 仅 获取 各 样本 所 归属 的 类 别 (Cluster vector) 这 一 项 聚 类 结果 ， 若 为 
TRUE， 则 聚 类 过 程 效率 更 高 。 


- 实例 : 生成 服从 正 态 分 布 的 随机 数 数据 集 ， 并 对 数据 集 进行 多- 中 心 点 聚 类 分 析 ， 代 码 见 代码 清单 7-3。 


代码 清单 7-3 -中 心 点 聚 类 算法 代码 
##K=- 中 心 点 聚 类 

thm Ag cluster 

library (cluster) 

# 设 置 随 机 种 子 


set.seed(0) 

# 生 成 服从 正 态 分 布 的 随机 数 数据 集 

x «- rbind(cbind(rnorm(10,0,0.5 0,0, 
cbind(rnorm(15,5,0.5), rnorm(15,5,0. 

#K- 中 心 点 聚 类 

pamx «- pam(x, 2) HRA2Ž 

# 查 看 聚 类 结果 

print (pamx) 

# 绘 制 聚 类 结果 

plot (pamx) 


R 语 言 绘制 出 的 聚 类 概率 分 布 图 及 结果 如 图 7-7、 图 7-8 所 示 。 


clusplot(pam(x-x, k=2)) 
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These two components explain 100% of the point variability. 


图 7-7 聚 类 概率 分 布 图 


Silhouette plot of pam(x-x, k=2) 
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Silhouette width s; 
Average silhouette width: 0.88 


图 7-8 AGAR 
(2) dbscan () 函数 
Hie: 构建 一 个 密度 聚 类 模型 。 
COEUR A: 


dbscan (data, eps, MinPts = 5, scale = FALSE, method = c("hybrid", "raw","dist"), 
seeds = TRUE, showplot = FALSE, countmode = NULL) 


其 中 : data 为 待 聚 类 的 数据 集 ; eps 为 考察 每 一 样本 点 是 否 满 足 密度 要 求 时 ， 所 划 定 考察 领域 的 半径 MinPts 为 密度 阅 值 ，scale 用 于 选择 是 否 在 聚 类 前 先 对 数据 进行 标准 化 ;' method 参 数 用 于 选择 认 
定 的 data 数 据 集 的 形式 ，“hybrid” 表 示 data 为 距离 矩阵 ，“raw” 表 示 data 为 原始 数据 集 ， 且 不 计算 其 距离 矩阵 ，“dist” 也 将 data 视 为 原始 数据 集 ， 但 计算 局 部 聚 类 矩 阵 ，showplot 用 于 选择 是 否 输出 
聚 类 结果 示意 图 ， 取 值 为 0、1、2， 分 别 表示 不 绘图 、 每 次 迭代 都 绘图 、 仪 对 子 迭 代 过 程 绘图 。 


- 实例 : 生成 服从 均匀 分 布 ， 误 差 项 服从 正 态 分 布 的 随机 数 数据 集 ， 并 用 密度 聚 类 工法 对 数据 集 进 行 聚 类 ， 代 码 见 代码 清单 7-4。 


代码 清单 7-4 ”密度 聚 类 算法 代码 


## 密 度 聚 类 

1o i d fpc 6, 
library (fpc) 

# 设 置 随机 种 子 
set.seed(665544) 

# 示 例 数 据 

n <- 600 

x <- cbind(runif(10, 0, 10)+rnorm(n, sd-0.2), runif(10, 0, 10)+rnorm(n, sd-0.2)) 
# 密 度 聚 类 

ds «- dbscan(x, 0.2) 
# 查 看 聚 类 结果 

print (ds) 

# 绘 制 聚 类 结果 

plot (ds, x) 


聚 类 结果 如 图 7-9 所 示 。 


从 图 7-9 中 可 以 看 出 ， 不 同 的 类 被 很 好 地 区 别 开 来 ， 没 有 错误 聚 在 一 起 的 类 。 如 果 对 聚 


(3) Mclust () 函数 
tpfe: 构建 一 个 EM 聚 类 模型 。 


使 用 格式 : 


类 结果 不 满意 ， 可 以 通过 调整 eps 和 MinPts 参 数 来 对 模型 进行 调 优 。 


Mclust (data, G,modelNames, prior, control,http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15770/0FHl 


BPS/Text/...) 


其 中 : data 为 待 聚 类 的 数据 集 ; G 为 预 设 类 别 数 ， 默 认 值 为 1 至 9， 由 软件 根据 BIC 值 选择 最 优 值 ; modelNames 用 于 设 定 模型 类 别 ， 也 由 函数 自动 选取 最 优 值 。 


. 实例 : 生成 带 有 骂 声 的 服从 均匀 分 布 的 示例 数据 ， 并 对 数据 作 EM 聚 类 分 析 ， 代 码 见 代码 清单 7-5。 


代码 清单 7-5” EM 聚 类 算法 代码 


JHEMAE AE 

# 加 载 函 数 包 MCclust 

library (mclust) 

nNoise - 100 

set.seed(0) 

# 生 成 示例 数据 

Noise = apply (faithful, 2, function (x) 
runif(nNoise, min = min(x)-.1, max = max (x)+.1)) 

data = rbind(faithful, Noise) 

FAR TA ARE A 

plot (faithful) 

points (Noise, pch = 20, cex = 0.5) 

#EM 聚 类 

set.seed(0) 

NoiselInit = sample(c(TRUE,FALSE), size = nrow(faithful)-*nNoise, 

replace = TRUE, prob = c(3,1)/4) 

mod5 = Mclust(data, initialization = list(noise = NoiseInit)) 

# 查 看 模型 建 模 结果 

summary (mod5, parameter = TRUE) 

# 绘 制 聚 类 结果 的 概率 分 布 图 


plot (mod5, what = "classification") 


# 设 置 随机 种 子 


聚 类 结果 如 图 7-10 所 示 。 


Classification 


eruptions 


图 7-10 ”EM 聚 类 结果 概率 分 布 图 


从 图 7-10 中 可 以 看 出 算法 避 开 了 噪声 的 影响 ， 将 数据 集聚 成 了 三 类 。 


7.4 小 结 

本 章 主 要 介绍 了 聚 类 分 析 算 法 中 比较 具有 代表 性 的 五 种 算法 及 在 R 中 的 实现 过 程 ， 包 括 最 广泛 使 用 的 K-Means 聚 
算法 : K- 中 心 点 聚 类 (K-Medoids) 、 密 度 聚 类 (DBSCAN) 、 期 望 最 大 化 聚 类 (EM), 
方法 。 第 二 节 主 要 介绍 了 层次 聚 类 在 R 里 面 所 需要 用 到 的 函数 : dist () 函数 用 于 生成 样本 的 距离 矩阵 ，hclust () È 


函数 在 聚 类 树 用 和 矩形 框 标记 出 聚 类 结果 。 第 三 节 主 要 介绍 了 R 里 面 的 pam () 函数 ”dbscan () 函数 、Mclust () È 


75 上 机 实验 


1. 实 验 目的 


JRX 


掌握 R 语 言 的 使 用 K-Means 函 数 进行 聚 类 分 析 建 模 的 过 程 。 


2. 实 验 内 容 
依据 本 章 介绍 的 kmeans () 函数 的 使 用 方法 ， 对 航空 客户 数据 进行 聚 类 价值 分 析 ， 


: 对 数据 集 预 处 理 ， 消 除 量 纲 差 别 。 


“ 对 预 处 理 后 的 数据 集 进 行 区 -Means 聚 类 ， 查 看 聚 类 结果 ， 并 绘制 图 形 。 
: 对 聚 类 模型 进行 优化 调 优 。 
3. 实 验方 法 与 步骤 


1) 导入 实验 数据 aircustomers_data.csv。 
2) 对 数据 集 进 行 中 心 标准 化 。 


国 数 进行 聚 类 分 析 建 模 ， 聚 类 数 设置 为 5 类 


3) 使 用 kmeans () 


4) 使 用 print () 函数 查看 聚 类 结果 ， 并 绘制 图 形 。 


5) 调整 聚 类 数 k， 对 模型 进行 优化 调 优 。 


函数 对 数据 集 进行 聚 类 分 析 建 模 ， 与 kmeans () 函数 的 聚 类 结果 进行 对 比 。 


6) 使 用 pam () È 
4. 思 考 与 实验 总 结 
1) 不 同 聚 类 算法 的 区 别 和 优势 有 哪些 ? 


2) 如 何 对 比 聚 类 结果 ? 


第 一 节 主 要 通过 一 个 示例 介绍 了 R 里 面 kmeans () È 


类 分 析 算 法 、 目 前 国内 外 使 用 较 多 的 层次 (系统 ) 聚 类 法 以 及 另外 三 种 比较 主流 的 聚 类 
函数 的 使 用 方法 和 聚 类 结果 的 解释 ， 并 提 及 了 如 何 优化 模型 的 
函数 为 层次 聚 类 的 主要 函数 ，cutree () 函数 对 生成 的 聚 类 树 进行 剪 术 ， 


函数 的 使 用 方法 并 绘制 图 形 展示 了 其 建 模 结果 。 


rect.hclust () 


数据 见 aircustomers data.csv, 


第 8 草 ”关联 规则 


关联 规则 反映 一 个 事物 与 其 他 事物 之 间 的 关联 性 ， 关 联 规则 分 析 则 是 从 事务 数据 库 、 关 系数 据 库 和 其 他 信息 存储 中 的 大 量 数据 的 项 集 之 间 发 现 有 趣 的 、 频 繁 出现 的 模式 、 关 联 和 相关 性 。 更 确切 地 说 ， 
关联 规则 通过 量化 的 数字 描述 物品 甲 的 出 现 对 物品 乙 的 出 现 有 多 大 的 影响 。 它 的 模式 属于 描述 型 模式 ， 发 现 关联 规则 的 算法 属于 无 监督 学 习 的 方法 。 关 联 规则 分 析 也 是 数据 挖 握 中 最 活跃 的 研究 方法 之 一 ， 
广泛 运用 于 购物 篮 数据 、 生 物 信息 学 、 医 疗 诊断 、 网 页 挖 握 和 科学 数据 分 析 中 。 


目前 ， 常 用 的 关联 规则 分 析 算 法 如 表 8-1 所 示 。 


表 8-1 常用 关联 规则 算法 


算法 名 称 算法 描述 


aoon KEREL dc à HHE EA 77: d i RRA, H ABA ZB E r ^E foc ve A H Se E 
HE. IRIE AE JN Jii 2 3 

— I: Eclat 算法 是 一 种 深度 优先 算法 ,采用 垂直 数据 表示 形式 ， 在 概念 格 理论 的 基础 上 利用 基于 前 级 的 
等 价 关 系 将 搜索 空间 划分 为 较 小 的 子 空间 

— FP-Tree 针对 Apriori 算法 固有 的 多 次 扫 面 事务 数据 集 的 缺陷 ， 提 出 的 不 产生 候选 频 奉 项 集 的 方法 。 
Apriori 和 FP-Tree 都 是 寻找 频 烷 项 集 的 算法 

分 析 和 确定 各 因 系 之 间 的 影响 程度 或 是 硅 十 个 子 因 末 ( 子 序列 ) 对 主因 素 (EEFI) 的 贡献 度 而 进 

灰色 关联 法 | 3 

行 的 一 种 分 析 方 法 
目前 在 R 语 言 中 ， 可 以 用 于 关联 分 析 的 程序 包 主要 包括 arules 和 arulesViz， 利 用 程序 包 中 的 相关 函数 可 以 实现 的 关联 规则 算法 包括 Apriori 算 法 、Eclat 算 法 和 weclat 算 法 。 本 章 重点 介绍 Apriori 算 法 的 R 
语言 实现 。 


8.1 Apriori 关 联 规则 


1. 基 本 概念 
(1) 事务 和 项 集 


在 关联 规则 所 使 用 的 数据 中 ， 把 一 个 样本 称 为 一 个 “事务 ” (Transaction) ; 每 个 事务 由 多 个 属性 来 确定 ， 这 里 的 属性 称 为 “项” (Item) ， 多 个 项 组 成 的 集合 称 为 “项 集 ” (ltemset) ; 根据 项 集 
中 的 包含 项 的 数量 ， 项 集 可 以 是 1- 项 集 ，2- 项 集 或 者 k- 项 集 ， 若 k-- 项 集 满足 人 为 设 定 的 最 小 支持 度 ， 即 称 之 频繁 K- 项 集 。 


用 X 表 示 一 个 项 或 者 项 集 ，Y 表 示 与 X 没 有 交 的 另 一 个 项 或 项 集 ， 那 么 记号 X 一 Y 表 示 X 和 Y 同 时 出 现 一 个 规则 (rule) 。 在 X 一 Y 中 ， 称 X 为 前 项 (也 称 为 条 件 项 或 左 项 ) ， 而 Y 称 为 后 项 (也 称 为 结果 项 或 
右 项 ) 。 


(2) 支持 度 、 置 信和 度 和 提升 度 
1) 支持 度 (Support) 
MAE: 表示 项 集 { 义 ，Y} 在 总 项 集 [ 里 出 现 的 概率 。 


Support(X — Y) = PX,Y) - P(X UY) 2 num(X UY) 
m PU) PD mum) 


CARA 
Hh, num () 表示 求 事务 集 里 特定 项 集 出 现 的 次 数 。 比 如 ，num (I) 表示 总 事务 集 的 个 数 ，num (XUY) Sen ZUG YIRSSRASTERS AR. 
2) 置信 和 度 (Confidence) 

. 概念 : 表示 在 先决 条 件 又 发 生 的 情况 下 ， 由 关联 规则 “X 一 Y” 推 出 了 的 概率 。 即 在 含有 XX 的 项 集中 ， 含 有 Y 的 可 能 性 。 


Confidence(X > Y) = P(Y|X)  PQGY) P(X UY) 
AR: P(X) P(X) 


3) 提升 度 (Lift) 
ERE: 表示 含有 X 的 条 件 下 ， 同 时 含有 Y 的 概率 ， 与 Y 总 体 发 生 的 概率 之 比 。 


P(Y|X) 


Lif(X 2Y)- us 


MNA 
2.R 语 言 实现 


在 R 语 言 中 ，Apriori 关 联 规则 算法 是 借助 arules 中 的 一 系列 函数 来 实现 的 ， 而 另 一 个 包 arulesViz 则 可 以 实现 关联 规则 的 可 视 化 。 关 联 规则 分 析 主 要 包括 对 频繁 数据 集 的 探索 、 建 立 关 联 规则 和 关联 规则 
查看 和 分 析 。 在 arules 中 ， 建 立 关 联 规 则 有 三 种 方法 ， 分 别 为 apriori 算 法 、eclat 算 法 和 weclat 算 法 。 各 算法 的 函数 实现 如 表 8-2 所 示 。 


表 8-2 atules 包 中 的 关联 规则 函数 


关联 规则 形式 


apriori apriori(data, parameter-NULL, appearance- NULL, control- NULL ) tiimi p po» T Dem 3 


算法 


eclat 


实现 函数 


eclat(data, parameter = NULL, control = NULL) 


关联 规则 形式 


{ Iteml,Item2,::: + 


weclat 


weclat(data, parameter = NULL, control = NULL) 


{ Iteml,Item2,::: ! 


这 三 个 函数 的 使 用 格式 很 类 似 ， 主 要 区 别 在 于 内 部 算法 和 关联 规则 输出 形式 不 同 ， 同 时 eclat () 和 weclat () &apriori () 少 了 一 个 参数 appearance。parameter 不 能 设置 置信 度 confidence 的 值 。 
apriori () 函数 的 格式 如 下 所 示 : 


apriori (data, parameter-NULL, appearance-NULL, control-NULL) 


其 中 ，data 为 用 于 进行 关联 分 析 的 数据 集 。 关 联 分 析 的 数据 应 当 符合 一 定 的 数据 格式 ， 即 class (data) ="transactions"。 若 数据 格式 不 满足 条 件 ， 可 以 通过 as (data, 
据 格 式 转换 为 合适 的 格式 再 进行 关联 分 析 。 


"transactions" ) 语句 将 数 


实例 : 列表 和 数据 框 转换 为 ttansactions 格 式 ， 代 码 见 代码 清单 8-1。 


代码 清单 8-1 ”列表 和 数据 框 转换 代码 


###ttransactions 格 式 的 转换 
HDD E Etransactions 
= a list <— list ( c("a","b","c") » c("a","b") " c("a","b","q") C (Mem mem) ,C("*a", "p","q", "en" ) 


> names (a list) <- paste("Tr",c(1:5), sep = "") # 列 表 重 命名 
> trans <- as(a list, "transactions") HHI A+A transactions 
> inspect (trans) # 检 查 是 否 转 换 成 功 
items transactionID 

1 (a,b,c) Tri 

2 (a,b) Tr2 

3 (a,b,d) Tr3 

4 {tce} Tr 

5 (a,b,d,e] Tr5 


## 数 据 框 转换 transactions 

> a df «- data.frame(age = as.factor(c(6,8,7,6,9,5)),grade = as.factor (c(1,3,1,1,4,1))) 
» trans2 «- as(a df, "transactions") # 将 数据 框 转换 为 transactions 

> inspect (trans2) # 检 查 是 否 转换 成 功 

items 

(age-6, grade=1} 
(age-8, grade-3] 
(age-7,grade-1j] 
(age-6, grade-1]j 
(age-9, grade-4] 
(age-5,grade-1] 


transactionID 


OY O1 4S C0 by 
OYO01 4» Co PO Fr 


parameter 用 于 设置 关联 规则 的 参数 ， 如 支持 度 和 置信 度 等 参数 。 默 认 情况 下 ，parameter=list (support-0.1, confidence-0.8, maxlen-10, minlenz1, target-"rules") 。 常 用 的 参数 说 明 见 
表 8-3。parameter 其 他 的 参数 说 明 可 在 帮助 文档 ASparameter-classes 中 查看 。 


表 8-3 ”parametet 常 用 参数 说 明 


参数 说 明 


support -个 项 集 的 最 小 支持 度 ， 上 默认 0.1， 可 人 简写 为 supp 

minlen 每 项 集 最 小 项 目 数 ， 默 认 1 

maxlen 每 项 集 最 大 项 目 数 ， 默 认 10 

iai 用 于 指定 挖掘 关联 的 类 型 ， 选 项 包括 : "frequent itemsets", "maximally frequent itemsets", "closed 
frequent itemsets" 、"rules" 、"hyperedgesets"， 默 认 "rules" 

confidence 个 项 集 的 最 小 置信 和 度 ， 默 认 0.8， 可 人 简写 为 conf。 对 于 "frequent itemsets"， 置 信和 度 为 NA 

ext 表示 是 否 生 成 关于 quality measures ( 比如: lhs.support) 的 额外 信息 。 默 认为 FALSE 


appearance 参 数 用 于 指定 items 项 在 规则 中 出 现 的 位 置 。appearance 参 数 的 命名 列表 包含 如 下 元 素 : Ihs、rhs、both、items、none、default。lhs、rhs、both 分 别 表示 items 出 现在 规则 的 前 项 、 后 
项 、 前 项 或 后 项 。none 指 定 不 能 出 现在 rule 规 则 或 itemset 项 集中 的 tems 项 。default 指 定 列表 中 其 他 元 素 没有 提 及 的 items 项 出 现 的 位 置 ， 可 以 是 ”both”、” Ilhs”、”rhs” 和 ”none” 中 的 一 个 ， 黑 
iu" both", 


arules 中 的 数据 集 Groceries 中 包含 了 某 超市 某 段 时 间 内 的 销售 交易 记录 ， 每 一 行 数据 记录 一 个 交易 ， 每 个 交易 中 记录 了 当 次 交易 的 商品 名 称 。 对 数据 集 Groceries 进 行 关联 分 析 的 目的 在 于 发 现 超市 销 
售 数 据 库 中 不 同 的 商品 之 间 的 关联 关系 ， 这 种 关联 关系 实质 上 是 顾客 的 购物 习惯 的 反映 ， 商 家 可 以 利用 这 种 关系 制定 营销 策略 。 下 面 将 以 Groceries 为 数据 集 ， 展 示 关 联 分 析 遂 数 的 用 法 。 


实例 : 对 Groceties 进 行 关 联 规 则 分 析 ， 代 码 见 代码 清单 8-2。 


代码 清单 8-2 ”关联 规则 分 析 代 码 


井 # 关 联 规则 分 析 
»library (arules) # 加 载 程序 包 arules 
> data ("Groceries") # 提 取 数 据 集 Groceries 
# 数 据 集 相关 的 统计 汇总 信息 ， 包 括 事务 和 项 集 的 汇总 情况 
> summary (Groceries) 
transactions as itemMatrix in sparse format with 
9835 rows (elements/itemsets/transactions) and 
169 columns (items) and a density of 0.02609146 


most frequent items: 
whole milk other vegetales rolls/buns soda yogurt (Other) 
2513 1903 1809 1715 1372 34055 

element (itemset/transaction) length distribution: 

sizes 
1 2 3 4 5 6 7 8 9 10 11 12 
2159 1643 1299 1005 855 645 545 438 350 246 182 117 
13 14 T5 16 17 18 19 20 21 22 23 24 
78 77 55 46 29 4 4 9 11 4 6 1 
26 27 28 29 32 
] ] 1 3 1 
Min. 1st Qu. Median Mean 3rd Qu Max. 
1.000 2.000 3.000 4.409 6.000 32.000 


includes 


extended item information - examples: 
labels  level2 levell 


1 frankfurter sausage meet and sausage 
2 sausage sausage meet and sausage 
3 liver loaf sausage meet and sausage 
# 建 立 关联 规则 rules， 设 定 支 持 度 最 小 值 为 0.001， 置 信 度 最 小 值 为 0.5 
> rules-apriori (Groceries,parameter = list(support-0.001,confidence-0.5)); 
Apriori 
Parameter specification: 
confidence minval  smax arem aval original Support support minlen maxlen 
0.5 0. 1 none FALSE TRUE 0.001 1 10 
target ext 
rules FALSE 
Algorithmic control: 
filter tree heap memopt load sort verbose 
0 TRUE TRUE FALSE TRUE 2 TRUE 
Absolute minimum support count: 9 
set item appearances http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15770/OEBPS/Text/...[0 item(s)] done [0.00s]. 
set transactions http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15770/OEBPS/Text/...[169 item(s), 9835 transaction(s)] done [0.01s]. 
sorting and recoding items http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15770/OEBPS/Text/... [157 item(s)] done [0.00s]. 
creating transaction tree http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15770/OEBPS/Text/... done [0.01s]. 
checking subsets of size 12 3 4 5 6 done [0.03s]. 
writing http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15770/OEBPS/Text/... [5668 rule(s)] done [0.00s]. 
creating 84 object http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15770/OEBPS/Text/... done [0.01s]. 
summary 结 果 解 释 如 下 。 
第 一 段 : 总 共有 9835 条 交易 记录 transaction，169 个 商品 item。 
第 二 段 : 最 频繁 出 现 的 商品 item 及 其 出 现 的 次 数 。 
第 三 段 : 每 笔 交 易 包含 的 商品 数目 及 其 对 应 的 五 个 分 位 数 和 均值 的 统计 信息 。 如 : 2159 条 交易 仅 包 含 了 一 个 商品 ，1643 条 交易 购买 了 两 件 商品 ， 一 条 交易 购买 了 32 件 商品 。 
第 四 段 : 最 大 最 小 值 、 均 值 和 分 位 数 的 统计 信息 。 第 一 分 位 数 是 2， 意 味 着 25% 的 交易 包含 不 超过 两 个 tem。 中 位 数 是 3 表明 50% 的 交易 购买 的 商品 不 超过 3 件 。 均 值 4.4 表 示 所 有 的 交易 平均 购买 4.4 件 商 
ri 
HHo 
第 五 段 : 如 果 数 据 集 包 含 除 了 Transaction Id 和 Item 之 外 的 其 他 的 列 〈 如 发 生 交 易 的 时 间 、 用 户 1D 等 ) ， 会 显示 在 这 里 。 这 个 例子 其 实 没有 新 的 列 ，labels 就 是 item 的 名 字 。 
使 用 apriori 建 模 时 ， 默 认输 出 进度 报告 ，Parameter specification 和 Algorithmic control 分 别 为 apriori 函 数 中 parameter 和 control 的 参数 设置 。 如 不 需要 输出 进度 报告 ， 可 在 建 模 前 将 control 中 的 


verbose 参 数 改 为 FALSE。 


实例 : 


使 用 Summary 函 数 查看 规则 的 汇总 信息 代码 见 代码 清单 8-3。 


代码 清单 8-3 ”查看 规则 的 汇总 信息 代码 


# 查 看 规则 的 NAA 信息 人 > 
> summary (rules) 
set of 5668 rules 
rule length distribution (lhs + rhs): sizes 
2 3 4 5 6 
11 1461 3211 939 46 
Min. 1st Qu. Median Mean 3rd Qu. Max. 
2.00 3.00 4.00 3.92 4.00 6.00 
summary of quality measures: 
supor confidence lift 
Min. : 0.001017 Min. : 0.5000 Min. * 14957 
1st Qu.: 0.001118 1st Qu.: 0.5455 1st Qu.: 2.464 
Median : 0.001322 Median : 0.6000 Median : 2.899 
Mean : 0.001668 Mean : 0.6250 Mean : 3.202 
3rd Qu.: 0.001729 3rd Qu.: 0.6842 3rd Qu.: 3.0691 
Max. 0.022267 Max. 1.0000 Max. : 18.996 
mining info: 
data ntransactions support confidence 
Groceries 9835 0.001 0.5 
summary 结 果 解 释 如 下 。 
第 一 段 : 规则 的 长 度 分 布 。 如 上 例 ，len=2 有 11 条 规则 ，len=3 有 1461 条 规则 ，len=4 有 3211 条 规则 。 
第 二 段 : 最 大 值 最 小 值 、 均 值 和 分 位 数 的 统计 信息 。 
第 三 段 : quality measure 的 统计 信息 。 
第 四 段 : 挖掘 的 相关 信息 。 


其 他 用 于 Apriori 关 联 规则 分 析 的 关联 函数 见 表 8-4。 


表 8-4 ”关联 规则 分 析 的 关联 函数 


Ed 程序 包 


itemFrequency() 计算 各 个 项 集 出 现 的 频率 CREE) arules 


(5€) 
E Ai 程序 包 
itemFrequencyPlot () ZA illis AB EE] ( 文 持 度 频率 图 ) arules 
inspect() 查看 关联 规则 arules 
quality 提取 规则 中 文 持 度 、 置 信和 度 、 提 升 度 等 信息 arules 
interestMeasure() 计算 规则 的 各 种 附加 信息 arules 
sort() 关联 规则 排序 arules 
subset() 提取 符合 一 定 条 件 的 关联 规则 arules 
plot() 实现 关联 规则 可 视 化 arulesViz 


下 面 将 根据 数据 集 Groceries 以 及 前 面 实例 建立 起 来 的 关联 规则 rules， 对 表 8-4 中 的 函数 的 用 法 进行 详细 的 介绍 
(1) itemFrequency () 函数 
. 功能 : 计算 各 个 项 集 的 出 现 频率 (支持 度 ) 。 


使 用 格式 : 


itemFrequency (data, [seq] ) 


其 中 ，data 即 为 用 于 进行 关联 分 析 的 数据 集 ; sedq 是 一 个 序列 ， 可 以 是 数列 也 可 以 是 项 集 的 具体 名 称 ， 用 于 限定 所 要 查看 的 项 集 的 数目 。 
实例 : 查看 Gtoceties 中 商品 的 支持 度 (销售 占 比 ) ， 代 码 见 代码 清单 8-4。 
代码 清单 8-4 查看 商品 支持 度 代码 


## 查 看 Groceries 中 商品 的 支持 度 
# Groceries 数 据 中 前 3 件 商品 的 CMS 
» itemFrequency (Groceries[,1:3 
Frankfurter sausage pend loaf 
0.058973055 0.093950178  0.005083884 
* Groceries 数 据 中 商品 whole milk. other vegetables 的 支持 度 
> itemFrequency (Groceries[,c("whole milk","other vegetables")]) 
whole milk other vegetables 
0.2555160 0.1934926 


(2) itemFrequencyPlot () 函数 


使 用 格式 : 


itemFrequencyPlot (data, support, topN) 


其 中 : data 为 用 于 进行 关联 分 析 的 数据 集 ; support 限 定 支 持 度 的 大 小 ， 大 于 该 支持 度 的 项 集 才 会 出 现在 支持 度 频率 图 中 ， 该 值 默 认为 0.1; topN 等 于 一 个 数值 ， 表 示 只 作出 支持 度 最 大 的 前 topN 个 项 
集 的 支持 度 频率 图 。 


实例 : 对 数据 集 Gtoceties 中 的 项 集 作 支持 度 频率 图 代码 见 代 码 清 单 8-5。 


代码 清单 8-5 输出 支持 度 频率 图 代码 


## 输 出 支持 度 频 率 图 

# 输出 支持 度 support 大 于 0 .1 的 项 集 的 支持 度 频 率 图 

> itemFrequencyPlot (Groceries, support=0.1) 
# 输 出 支持 度 support 最 大 的 前 20 个 项 集 的 支持 度 频率 图 
> itemFrequencyPlot (Groceries ,topN-20) 


代码 运行 结果 如 图 8-1 和 图 8-2 所 示 。 
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图 8-1 support 大 于 0.1 的 项 集 的 支持 度 频 率 图 


item frequency(relative) 


图 8-2 ”suppott 最 大 的 前 20 个 项 集 的 支持 度 频率 图 


(3) inspect () 函数 


功能 : 查看 关联 规则 。 


inspect(rules [seq]) 


其 中 ，rules 为 关联 分 析 得 到 的 规则 ，seq 是 一 个 数列 ， 用 于 限定 所 要 查看 的 项 集 的 数目 。inspect () 函数 经 常 和 sort () 函数 以 及 subset () 函数 一 起 使 用 ， 使 用 格式 为 inspect (sort () ) 和 
inspect (subset () ) ， 有 具体 实例 详 见 sort () 函数 和 subset () 函数 的 实例 。 同 时 ，inspect () 函数 也 用 于 查看 关联 数据 。 


- 实例 : 查看 关联 规则 tules 中 的 前 五 项 ， 代 码 见 代码 清单 8-6。 


代码 清单 8-6 ”查看 数据 和 规则 代码 


## 查 看 数据 和 规则 


# 查 看 关联 数据 Groceries 的 前 五 项 
> inspect (Groceries[1:5]) 


Js 
(ci 


Tems 
Crus 


1 


fruit, 


semi-finished bread, 


margarine 


, 


ready soups] 


(tropical fruit 
yogurt, 
coffee] 

(whole milk} 

(pip fruit, 
yogurt, 
cream 
mea 


A CO 


whole mil 
condensed 
long 
# 查 看 前 五 项 关联 规则 
> inspect (rules[1 
lhs 
(honey) 
(tidbits] 
(cocoa drinks] 
(pudding powder 


Or 0) PN rp| 


(4) quality () && 


功能 : 提取 规则 中 支持 度 、 置 信和 度 、 提 


` 使 用 格式 : 


quality (rules) 


{cooking chocolate} 


, 


cheese , 
Spreads] 
(other vegetables, 
k, 


milk, 


:5]) 


=> [who] 


life bakery product} 


=> 


=> {who] 


{roll 


} => {who] 


=> {who] 


数 


(5) interestMeasure () 函数 


功能: 


` 使 用 格式 : 


计算 规则 的 各 项 附加 信息 。 


OGOOGO 


support 


.001 


118454 
1220132 
132181 


810 


1321 


810 


1321 


810 


interestMeasure (rules, measure, transactions = NULL) 


confidence ift 
0.7333333 2.870009 
0.5217391 2.836542 
0.5909091 2.312611 
0.5652174 2.212062 
0.5200000 2.035097 


measure 的 选项 还 有 很 多 ， 常 用 的 有 "coverage"、"fishersExactTest"、 "conviction", "chiSquared" ， 更 多 选项 的 解释 说 明 可 参考 interestMeasure 函 数 的 帮助 文档 。 


: 实例 : 计算 "coverage"、"fishersExactTest"、"conviction"、"chiSquared" 的 值 ， 代 码 见 代码 清单 8-7。 


代码 清单 8-7 


计算 规则 代码 


## 计 算 规则 的 各 项 附加 信息 


> qualityMeasures <- interestMeasure (rules,measure=c ("coverage", "fishersExactTest", "conviction", "chiSquared"), transactions-Groceries) #i 计 算 "coverage", " 
> summary (qualityMeasures) 
coverage fishersExactTest conviction chiSquared 
Min. :0.001017 Min. :0.000e+00 Min. 1.489 Min. : 6.297 
1st Qu.:0.001729 1st Qu.:5.500e-07 1st Qu.: 1.760 1st Qu.: 16.395 
Median :0.002135 . Median :1.549e-05 | Median 1.985 Median : 24.307 
Mean :0.002788 Mean :6.265e-04 Mean 2.371 Mean : 28.962 
3rd Qu.:0.002949 3rd Qu.:2.732e-04 3rd Qu.: 2.486 3rd Qu.: 35.991 
Max. :0.043416 Max. :1.610e-02 Max. 12.098 Max. :260.871 
NA's :28 
> quality (rules) <- cbind(quality(rules), qualityMeasures) # 合 并 quality measures 
> quality (rules) <- round (quality (rules), digits-3) # 保 留 小 数 点 后 3 位 
> inspect(head(rules)) # 查 看 合并 后 的 关联 规则 
lhs rhs support confidence lift cover age 
1 {honey} => (whole milk} 0.001 0.733 2.870 0.002 
2 {tidbits} => {rolls/buns} 0.001 0.522 2.837 0.002 
3 (cocoa drinks] => (whole milk} 0.001 20.591 2.313 0.002 
4 (pudding powder) => (whole milk} 0.001 0.565 2.212 0.002 
5 {cooking chocolate} => {whole milk} 0.001 0.520 2.035 0.003 
6 {cereals} => {whole milk} 0.004 0.643 2.516 0.006 
fisher sExactTest conviction chiSquared 
1 0.000 2.7192 18.030 
2 0.000 1.706 17.526 
3 0.001 1.820 13.039 
4 0.002 1.712 11.624 
5 0.004 1.551 9.217 
6 0.000 2.085 44.420 
(6) sort () 函数 
` 功能 : 关联 规则 排序 。 
CARRERA 
sort (rules,by-"lift") [seq] 


其 中 ，rules 为 关联 分 析 得 到 的 规则 ，by="lift" 表 明 按 照 提 升 度 排序 ， 也 可 选择 "support"， 即 按照 支持 度 排序 ， 还 可 选择 "confidence"， 即 按照 置信 和 度 排序 。 


seq 是 一 个 数列 ， 用 于 限定 所 要 进行 排序 的 项 集 的 数目 。 需 要 注意 的 是 ，sort () 函数 排序 结果 是 递减 的 ， 并 且 只 能 实现 对 关联 规则 排序 的 功能 ， 不 外 
要 通过 inspect () 函数 来 实现 。 


: 实例 : 按 提 升 度 对 rules 排 序 ， 代码 见 代码 清单 8-8。 


代码 清单 8-8 ”规则 


## 规 则 排序 


排序 代码 


# 按 支持 度 递减 的 顺序 对 rules 排 序 


> sort (rules,by="support") 


set of 5668 rules 


# 按 支持 度 递减 的 顺序 ， 输 出 支持 度 最 大 的 前 五 项 规则 


Dy 


HE 


8 显示 排序 后 的 结果 ， 想 要 查看 排序 后 的 结果 ， 


fishersExactTest", 


M 


还 


"c 


E3 
AXE 
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> inspect (sort (rules, by="support") [1:5]) 


lhs rhs support confidence lift 
1472 (other vegetables, yogurt} => (whole milk) 0.02226741 0.5128806 2.007235 
1467 (tropical fruit, yogurt} => (whole milk) 0.01514997 0.5173611 2.024770 
1449 [other vegetables,whipped/sour cream) => (whole milk) 0.01464159 0.5070423 1.984385 
1469 (root vegetables, yogurt] => (whole milk) 0.01453991 0.5629921 2.203354 
1454 (pip fruit,other vegetables] => (whole milk) 0.01352313 0.5175097 2.025351 


(7) subset () 国 数 
. 功能 : 提取 符合 一 定 条 件 的 关联 规则 。 


.使 用 格式 : 


subset (rules,subset); 


其 中 : rules 为 关联 分 析 得 到 的 规则 ; subset 为 逻辑 表达 式 ， 用 于 规定 条 件 。 常 用 的 条 件 有 两 种 ， 一 是 限定 输出 的 前 项 和 后 项 为 具体 的 某 些 项 ， 另 一 个 条 件 限 定 是 support，confidence，lift 的 过 滤 条 
件 。 


如 需 限定 输出 的 前 项 和 后 项 ， 常 用 到 以 下 三 个 符号 。 

%in%， 精 确 匹 配 。items%in%c ("A", "B") 表示 在 前 项 和 后 项 的 并 集中 ， 至 少 有 一 个 item 等 于 A 或 B。 如 果 仅 仅 想 搜索 Ihs 或 者 rhs， 那 么 用 Ihs 或 rhs 蔡 换 items 即 可 。 如 : Ihs?6in?6c ("yogurt") 。 
%pin%， 部 分 匹配 。items%pin%c ("A", "B") 表示 在 前 项 和 后 项 的 并 集中 ， 至 少 有 一 个 ittem 包 含 A 或 B。 

%ain%， 完 全 匹配 。items%ain%c ("A", "B") 表示 在 前 项 和 后 项 的 并 集中 ， 同 时 存在 item A 和 item B, 

如 需 设置 多 个 条 件 可 通过 条 件 运算 符 (S, |, ! ) 添加 。 

- 实例 : 提取 符合 一 定 条 件 的 关联 规则 ， 代 码 见 代码 清单 8-9。 

代码 清单 8-9 ”提取 规则 代码 


## 提 取 规 则 

# 提 取 后 项 为 "whole milk" 并 且 提 升 度 大 于 1 .2 的 关联 规则 

> subset (rules, subset-rhs$in$"whole milk"&lift»-1.2) 

set of 2679 rules 

m m qM rc dhe 


> inspect (subset (rules, subset-rhs£in£$"whole milk"&lift»-1.2)[1:5]) 

lhs rhs support confidence lssEt 
1 (honey) => (whole milk] 0.001118454 0.7333333 2.870009 
3 (cocoa drinks] => (whole milk) 0.001321810 0.590909] 2.312611 
4 (pudding powder} => (whole milk] 0.001321810 0.5652174 2.212062 
5 (cooking chocolate] => (whole milk) 0.001321810 0.5200000 2.035097 
6 {cereals} => (whole milk }  0.003660397 0.642857] 24915917 


(8) plot () 函数 
` 功能 : 实现 关联 规则 可 视 化 。 


“ 使 用 格式 : 


plot (rules,method,measure, shading, interactive) 


其 中 : rules 为 关联 分 析 得 到 的 规则 。 
method 定 义 图 形 的 类 别 ， 选 项 包括 : "scatter", BAE; "graph"， 关 联 图 形 ; "group"， 分 组 矩阵 ; "paracoord"， 平 行 坐标 图 ; "matrix", E; "matrix3D", 3DE. 


measure 的 选项 包括 : "support", "confidence", "lift", "order"。 有 的 图 形 需要 设置 一 个 measure 人 参数 ， 有 的 需要 两 个 measure 参数 (例如 "scatter") ， 有 的 不 需要 measure 参 数 ( 例 
如 "graph") 。 


shading 的 选项 包括 : "support", "confidence", "lift", 
interactive 用 于 图 形 的 交互 式 探索 ， 默 认为 FALSE， 可 以 使 用 interactive=TRUE 来 实现 图 形 的 选择 和 缩放 。 


运行 plot (rules, interactive=TRUE) 得 到 图 8-3。 在 图 8-3 中 ， 横 坐标 为 支持 度 ， 纵 坐标 为 置信 和 度 ， 点 的 颜色 代表 提升 度 的 大 小 ， 颜 色 越 深 表 示 提 升 度 越 大 。 在 图 中 双击 ， 选 中 一 个 矩形 区 域 ， 如 图 8- 
3 所 示 。 选 中 矩形 区 域 后 ， 便 可 单 击 "inspect" 查 看 此 区 域 的 规则 ， 同 时 也 可 单 击 "zoom in "或 "zoom out" 对 图 片 进行 缩放 。 单 击 "zoom in "后 ， 图 片 会 放大 为 选中 的 矩形 区 域 。 单 击 "zoom out"， 图 片 会 缩 
小 到 原 图 大 小 。 单 击 "end " 即 可 结束 图 形 的 交互 式 探索 。 


对 数据 Groceries 进 行 关 联 分 析 的 完整 流程 如 代码 清单 8-10 所 示 。 


Scatter plot for 5668 rules 
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inspect filter zoomin  zoomout end 


图 8-3 ”关联 规则 散 点 图 
代码 清单 8-10 ”对 Groceries 进 行 关联 分 析 


HHECSOIUM 2-91 


ibrary (arules) # 加 载 程序 包 arules 
library (arulesViz) $39 3X AS P & arulesViz 
data ("Groceries") # 提 取 数 据 集 Groceries 
summary (Groceries) # 数 据 集 相关 的 统计 汇总 信息 ， 包 括 事 务 和 项 集 的 汇总 情况 
inspect (Groceries[1:10]) # 查 看 数据 集 的 前 10 个 事务 
Size«-size (Groceries) # 查 看 每 个 交易 记录 包含 的 商品 数目 


## 查 看 Groceries 中 商品 的 支持 度 

ItemFrequency-itemFrequency (Groceries) 

# 查 看 Groceries 数 据 中 商品 whole milk. other vegetables 的 支持 度 

temFrequency (Groceries[,c("whole milk","other vegetables")]) 

HE h X dE support X 89 8120/2 fk 49 45:395 48 E E] 

temFrequencyPlot (Groceries ,topN-20) 

# 建 立 关联 规则 rules， 条 件 是 支持 度 大 于 0 .001 且 置信 度 大 于 0.5 

rules-apriori (Groceries,parameter = list (support=0.001,confidence=0.5)) 
inspect (rules[1:10]) # 查 看 rules 前 十 则 关联 规则 

## 查 看 其 他 的 dualLity measures 

# 计 算 "coverage" "fishersExactTest", "conviction", "chiSquared" summary (qualityMeasures) 


dE H- = H- 


qualityMeasures <- interestMeasure (rules, measure-c("coverage","fishersExactTest", "conviction", "chiSquared"), transactions-Groceries) 
quality (rules) <- cbind (quality (rules), qualityMeasures) # 合 并 quality measures 

quality (rules) <- round (quality (rules), digits-3) # 保 留 小 数 点 后 3 位 

inspect (head (rules) ) ， # 查 看 合并 后 的 关联 规则 

## 规 则 排序 

# 按 提升 度 排 序 


rules.sorted-sort (rules,by-"lift") 

# 查 看 排序 后 的 前 五 则 关联 规则 

inspect (rules.sorted[1:5]) 

# 提 取 后 项 为 "whole milk" 并 且 提升 度 大 于 1.2 的 关联 规则 
rules.subset-subset (rules,subset-rhs?in$"whole milk"&lift»-1.2) 
# 查 看 满足 后 项 为 "whole milk" 并 且 提 升 度 大 于 1 .2 的 关联 规则 的 前 五 项 
inspect (rules.subset[1:5]) 

THOSE XOU] JE HC. E] 


plot (rules,method-"scatter",interactive-T) 


8.2 人 小结 


建立 关联 规则 有 三 种 方法 ， 分 别 为 apriori 算 法 、eclat 算 法 和 weclat 算 法 。 本 章 主要 介绍 了 apriori 关 联 规则 算法 的 基本 概念 及 其 R 语 言 实 现 过 程 。 关 联 规则 建 模 过 程 中 常 涉及 关联 规则 提取 、 排 序 以 及 相 
关 统 计量 的 计算 等 ， 这 些 内 容 在 本 章 中 都 作 了 详细 介绍 。 最 后 简单 介绍 了 如 何 使 用 arulesViz 包 中 的 plot 函 数 实现 关联 规则 的 可 视 化 。 


8.3 ”上 机 实验 


1. 实 验 目的 
"了解 关联 分 析 的 常用 算法 和 实际 应 用 。 


BEES ILE EE 


应 用 R 语 言 进 行 关联 分 析 ， 包 括 对 频繁 数据 集 的 探索 、 关 联 规则 的 建立 和 结果 的 分 析 。 

: 对 于 atules 包 中 的 数据 集 Adult， 使 用 aptioti 算 法 建立 关联 规则 。 

“ 对 于 数据 集 Adult， 尝 试 使 用 Eclat 算 法 进行 关联 规则 分 析 ， 比 较 两 种 算法 得 到 的 结果 。 

3. 实 验方 法 与 步骤 

(1) 实验 一 

1) 获取 arules 包 中 的 数据 集 Adult， 查 看 数据 集 Adult 的 前 五 个 事项 ， 了 解数 据 集 的 项 集 以 及 具体 内 容 。 

2) 查看 数据 结构 和 数据 概况 ， 包 括 事 务 的 个 数 和 项 的 总 数 ， 支 持 度 最 大 的 项 分 别 是 哪些 ， 以 及 事务 中 项 的 个 数 的 分 布 。 

3) 查看 Adult 中 各 个 项 的 支持 度 ， 并 单独 查看 项 ”age=Young” 和 项 ”sex=Male” 的 文 持 度 ， 并 对 支持 度 最 大 的 前 10 个 事项 作 稀 朴 和 矩阵 图 。 


4) 以 最 小 支持 度 为 0.01， 最 小 置信 和 度 为 0.5 建 六 apriori 关 联 规则 ， 得 到 的 关联 规则 记 为 rule1; 以 最 小 支持 度 为 0.01， 最 小 置信 度 为 0.6 建 立 apriori 关 联 规则 ， 得 到 的 关联 规 则 记 为 rule2; 以 最 小 支持 度 
为 0.01， 最 小 置信 和 度 为 0.5， 同 时 指定 关联 规则 的 前 项 为 ”age=Young” 建 立 关 联 规则 ， 得 到 的 关联 规则 记 为 rule3。 上 比较 三 个 关联 规则 的 数目 。 


5) 按 提升 度 对 rule1 排 序 ， 并 查看 排序 后 的 前 10 项 规则 。 提 取 后 项 为 relationship=Wife 并 且 提 升 度 大 于 1.5 的 关联 规则 。 

6) 对 rule1 的 前 10 项 规则 作 关联 图 和 和 矩阵 图 。 

(2) 实验 二 

1) 以 最 小 支持 度 为 0.01 建 立 eclat 关 联 规则 ， 得 到 的 关联 规则 记 为 rules1; 以 最 小 支持 度 为 0.05 建 立 eclat 关 联 规 则 ， 得 到 的 关联 规则 记 为 rules2。 
2) 按 支持 度 对 rule1 排 序 ， 并 查看 排序 后 的 前 10 项 规则 。 

4 思考 与 实验 总 结 

1) 对 于 不 同 的 数据 类 型 ， 怎 样 实现 关联 规则 分 析 ? 


2) 如 何 评估 关联 规则 分 析 的 效果 ? 


第 9 草 ”智能 推荐 


随 着 互联 网 的 出 现 和 普及 ， 网 络 上 的 信息 量 大 幅度 地 增长 。 用 户 在 面 对 大 量 的 信息 时 无 法 从 中 获得 对 自己 真正 有 用 的 信息 ， 传 统 的 搜索 算法 只 能 呈现 给 所 有 用 户 一 样 的 排序 结果 ， 无 法 针对 不 同 用 户 的 
兴趣 爱好 提供 相应 的 信息 反馈 服务 ， 于 是 个 性 化 推荐 系统 应 运 而 生 。 它 是 根据 用 户 的 兴趣 特点 和 购买 行为 ， 向 用 户 推 荐 用 户 感 兴趣 的 信息 和 商品 。 一 个 好 的 推荐 系统 能 够 为 用 户 提 供 个 性 化 服务 ， 增 强 用 户 
粘性 。 


9.1 智能 推荐 模型 构建 


智能 推荐 的 方法 有 很 多 ， 包 括 基于 内 容 推荐 、 协 同 过 渡 推 荐 、 基 于 关联 规则 、 基 于 知识 推荐 、 基 于 效用 推荐 和 组 合 推荐 。 


基于 内 容 的 推荐 方法 就 是 根据 用 户 过 去 的 行为 记录 来 向 用 户 推荐 相似 的 推荐 品 。 这 种 算法 的 缺点 是 由 于 内 容 高 度 匹配 ， 导 致 推荐 结果 的 精细 度 较 差 ， 而 且 有 冷 启 动 的 问题 ， 对 新 用 户 不 能 提供 可 靠 的 推 
荐 结果 。 并 且 ， 只 有 维度 增加 才能 增加 推荐 的 精度 ， 但 是 维度 一 旦 增加 ， 计 算 量 也 呈 指 数 型 增长 。 如 果 是 非 实体 的 推荐 品 ， 定 义 风 格 也 不 是 一 件 容易 的 事 。 


协同 过 滤 算 法 的 主要 任务 就 是 找 出 和 你 品味 最 相近 的 用 户 ， 从 而 根据 他 的 喜好 预测 你 也 可 能 喜欢 什么 。 这 种 方法 可 以 推荐 一 些 内容 上 差异 较 大 但 是 又 是 用 户 感 兴趣 的 物品 ， 很 好 地 支持 用 户 发 现 潜在 的 
兴趣 偏好 ， 也 不 需要 领域 知识 ， 并 且 随 着 时 间 推 移 性 能 不 断 提 高 。 但 是 也 存在 无 法 向 新 用 户 推 荐 的 问题 ， 系 统 刚刚 开始 时 推荐 质量 可 能 较 差 。 


由 于 各 种 推荐 方法 都 有 优 缺 点 ， 所 以 在 实践 中 ， 组 合 推荐 经 常 被 采用 。 研 究 和 应 用 最 多 的 是 内 容 推荐 和 协同 过 滤 推 荐 的 组 合 。 


在 协同 过 滤 中， 一 个 重要 的 环节 就 是 如 何 选择 合适 的 相似 度 计 算 方法 ， 常 用 的 两 种 相似 度 计 算 方 法 包括 皮尔 逊 相关 系数 和 余弦 相似 度 等 。 皮 尔 逮 相关 系数 的 计算 公式 如 下 所 示 : 


2 


ici, M vi Tv 


icI,.(M, V ui u 
其 中 ，i 袁 示 项 ， 如 商品 ; lu 表示 用 户 u 评 价 的 项 集 ; lv 表示 用 户 v 评 价 的 项 集 ; rj 表示 用 户 u 对 项 的 评分 ; v, PRZRPHPOVXSZRIBUPEQ “表示 用 户 u 的 平均 评分 ; “表示 用 户 v 的 平均 评分 。 


另外 ， 余 弦 相 似 度 的 计算 公式 如 下 所 示 : 


S(u,v) = 一 一人 一 


r y 
u |l I v ||2 


l n : 1 PTT 
2 
" 
1 u 
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另 一 个 重要 的 环节 就 是 计算 用 户 u 对 未 评分 商品 的 预测 分 值 。 首 先 根据 上 一 步 中 的 相似 度 计算 ， 寻找 用 户 u 的 邻居 集 NEU， 其 中 N 表 示 邻 居 集 ，U 表 示 用 户 集 。 然 后 ， 结 合用 户 评分 数据 集 ， 预 测 用 户 u 
对 项 的 评分 ， 计 算 公式 如 下 所 示 : 


| 
x| 
十 


Pi 


H, s (u-u') 表示 用 户 u 和 用 户 u' 的 相似 度 。 
在 R 语 言 中 ， 常 使 用 recommenderlab 包 中 的 函数 构建 智能 推荐 模型 。 下 面 对 recommenderlab 包 进行 详细 介绍 。 
(1) ratingMatrix 


recommenderlab 包 主要 处 理 的 对 象 为 ratingMatrix。ratingMatrix 有 两 种 : realRatingMatrix 和 binaryRatingMatrix。realRatingMatrix 是 一 个 评分 矩阵 ， 以 真实 的 评分 数据 反映 在 和 矩 阵 当 中 ， 而 
binaryRatingM atrix 为 布尔 矩阵 ， 相 当 于 把 realRatingMatrix 中 大 于 0 的 数值 赋值 为 1。 


在 R 语 言 中 ，realRatingMatrix 和 binaryRatingMatrix 和 矩阵 储存 空间 小 ， 计 算 效率 高 ， 并 且 能 够 很 方便 地 转化 成 数据 框 和 列表 。 


- 实例 : 将 matrix 转 化 成 realRatingMatrix， 并 将 realRatingMatrix 转 化 成 list 和 data.frame。 


##realRatingMatrix 格 式 转换 
> m <- matrix(sample(c(NA,0:5),100, replace-TRUE, prob=c(.7,rep(.3/6,6))), 
t nrow-10, ncol-10, dimnames - list( 
user-paste('u', 1:10, sep-2''), 
itemm-paste('i', 1:10, sep-'") 
十 ) ) 
> r <- as(m, "realRatingMatrix") 井 将 matrix 格 式 转换 成 FealRatingMatrix 格 式 


10 x 10 rating matrix of class 'realRatingMatrix' with 28 ratings. 
list.m-as(r,"list") # 把 realRatingMatrix 转 化 成 list 
df .m=as (r, "data.frame")# 把 realRatingMatrix 转 化 成 data .frame 


> 
> 


(2) recommender () 
功能 : 构建 推荐 模型 。 


.使 用 格式 : 
Recommender (data, method, parameter-NULL) 


data 为 一 个 ratingMatrix， 调 用 recommender () 之 前 需 给 和 矩阵 的 所 有 列 进行 列 命名 ， 否 则 会 出 现 报 错 。 


method 的 选项 包括 IBCF (基于 物品 的 协同 过 滤 推 荐 ) 、UBCF (基于 用 户 的 协同 过 滤 推 荐 ) 、SVD (矩阵 因子 化 ) PCA ( 主 成 分 分 析 ) 、RANDOM (随机 推荐 ) 、POPULAR (基于 流行 度 的 推 
T£) 。 


parameter 的 参数 有 很 多 ， 运 行 以 下 代码 可 以 看 到 不 同 method 下 参数 的 默认 设置 : 


recommenderRegistrySget entries (dataType = "realRatingMatrix") 


具体 参数 的 默认 设置 见 表 9-1。 


表 9-1 Recommender 默 认 参 数 设置 
method parameter 

k=30, method= "cosine ", normalize= "center", normalize sim matrix= FALSE, alpha-0.5, na as 
cd zero- FALSE, minRating-NA 
UBCF method- " Cosine ", nn-25, sample-FALSE, normalize- "center", minRating-NA 
SVD approxRank-NA, maxiter-100, normalize- "center", minRating-NA 

categories-20, method= " Cosine ", normalize- "center", normalize sim matrix- FALSE, alpha-0.5, 
num na as zero- FALSE, minRating-NA 
RANDOM None 
POPULAR None 
下 面 以 IBCF 为 例 简单 介绍 参数 的 含义 : 
k: 取 多 少 个 最 相似 的 item， 默 认为 30; 


method: 相似 度 算法 ， 默 认 采 用 余弦 相似 算法 cosine ; 
normalize: 采用 何 种 归 一 化 算法 ， 默 认 均 值 归 一 化 center; 
normalize sim matrix: 是 否 对 相似 矩阵 归 一 化 ， 默 认为 否 
alpha: alpha 值 ， 默 认为 0.5; 

na_as_zero: 是 否 将 NA 作为 0， 默 认为 否 

最 小 评分 ， 默 认 不 设置 。 


minRating: 


这 些 参数 均 可 在 建立 模型 时 设置 ， 格 式 如 下 : 


recommender (data, method, parameter-list) 


(3) predict () 
功能 : 


预测 推荐 模型 ， 得 到 模型 的 topN 列 表 或 者 用 户 的 预测 评分 


` 使 用 格式 : 


用 户 对 所 有 未 评分 


predict (object, newdata, n = 10, type=, 


http: //www.hzcourse.com/resource/readi 


object 为 recommender 函 数 生成 的 推荐 模型 ; 
item 的 打分 


: 实例 : 根据 用 户 对 电影 的 评分 进行 电影 推荐 和 电影 评分 预测 ， 如 代码 清单 9- 1 所 示 。 


代码 清单 9-1 ”电影 推荐 和 电影 评分 预测 代码 


newdata 为 待 预测 的 数据 ; n 为 topN 的 值 ， 默 认 n=10， 表 示 top10 推 荐 ; type 的 参数 有 "topNList"、 
返回 一 个 RatingMatrix 对 象 ; 当 type= "topN "时 ，predict 函 数 直 接 返 回 用 户 评分 最 高 的 前 N 个 item。 


"ratings", 


Book?path-/openresources/teach ebook/uncompressed/15770/OEBPS/Text/...) 


34type-"ratings'Bj, predicte 24m 


##recommender 推 荐 
library (recommenderlab) 
library (ggplot2) 


data (MovieLense) 影评 分 数据 
as(MovieLense, "matrix")[1:3, 1:4] 人 y 评 分 

# 利 用 前 940 位 用 户 建 立 基 于 物品 的 协同 过 滤 推 荐 模型 ，method = "IBCF" 
m.recomm <- Recommender (MovieLense[1:940], method = "IBCF") 
m.recomm 

# 对 后 三 位 用 户 进行 推荐 预测 ， 使 用 preqict () Hk, SRijEtopN4E 


(m.recomm, eee 
影 推荐 巴 DUE 
使 用 predict () 函数 ， Mond z 


(ml.predict «- predict 
as(ml.predict, "list") 
HER 户 对 item 的 评分 预测 ， 


B 


"ratings" 


dua n-3)) ## n-3 表示 Top3 推 荐 


ml.predict2 «- predict (m.recomm, MovieLense[941:943], type = "ratings") 
as(ml.predict2, "matrix")[1:3, 1:4] # 显 示 部 分 电影 评分 预测 结果 

运行 代码 清单 9-1 得 到 部 分 结果 如 下 : 

> as(MovieLense, "matrix")[1:3, 1:4] # 显 示 部 分 电影 评分 


Toy Story (1995) GoldenEye (1995) Four Rooms (1995) Get Shorty (1995) 
5 3 4 3 

2 4 NA NA NA 

3 NA NA NA NA 

> as(ml.predict, "list") 井 电影 推荐 预测 结果 

[ELI 

[1] "Richard (1995)" "Postino, Il (1994)" "Antonia's Line (1995)" 

[[2]] 

[1] "Four Rooms (1995)" "Strange Days (1995)" "Ed Wood (1994)" 

[[3]] 

[1] "Mighty Aphrodite (1995)" "Supercop (1992)" "Akira (1988)" 

» as(ml.predict2, "matrix")[1:3, 1:4] # 显 示 部 分 电影 评分 预测 结果 
Toy Story (1995) GoldenEye (1995) Four Rooms (1995) Get Shorty (1995) 

941 NA NA NA NA 

942 4.901367 NA 5.000000 4.461869 

943 4.012566 NA 4.326714 3.545979 


ml.predict 的 结果 为 用 户 941~943 推 荐 评分 最 高 的 前 三 部 电影 。[[1]] 中 的 结果 表示 第 941 为 用 户 的 推荐 电影 


为 "Richard III (1995) ", "Postino, 


I| (1994) ", 


"Antonia's Line (1995) ", 


ml.predict2 的 结果 为 一 个 评分 矩阵， 包含 了 每 一 个 用 户 对 所 有 电影 的 预测 评分 。 


9.2 ”智能 推荐 模型 评价 

为 评价 推荐 算法 的 表现 ，recommender 包 提供 了 evaluationscheme 函 数 创建 一 个 数据 集 的 评价 方案 。 该 方案 可 以 简单 地 分 为 训练 数据 和 测试 数据 ，n 折 交叉 验证 或 bootstrap 重 复 抽样 。 接 下 来 可 以 使 
用 函数 evaluate () 评估 一 个 或 一 系列 的 推荐 模型 并 给 出 一 个 评价 方案 。 本 节 主 要 介绍 recommender 包 中 用 于 推荐 模型 评价 的 函数 。 

(1) evaluationScheme () 

: 功能 : 创建 一 个 数据 集 的 评价 方案 。 


.使 用 格式 : 


evaluationScheme (data, method-"split", train-0.9, k-NULL, given, goodRating = NA) 


国 数 参数 说 明 如 表 9-2 所 示 。 
Ak9-2 evauationScheme OAAS 

评估 方法 ， 选 项 有 : split( $A ), RAIER /测试 集 分 开 验 证 ; bootstrap， 重 复 抽样 ; cross- 
validation, n 折 交 又 验 证 
train 划分 为 训练 集 的 数据 比例 。method 为 split 时 ， 默 认 值 为 0.9 
k 运行 评估 的 折 数 或 倍数 。method 为 split 时 ， 上 默认 值 为 NULL 
given 用 来 进行 模型 评价 的 items 的 数量 。 默 认 值 为 3。given 越 大 ， 标 准 误 差 越 小 
goodRating 预测 成 功 的 最 小 评分 。 默 认 值 为 NA ，data 为 realRatingMatrix 时 ，goodRating 为 必需 的 参数 


(2) evaluate () 
-He 评估 一 个 或 一 系列 的 推荐 模型 ， 给 出 一 个 评价 方案 。 


.使 用 格式 : 


evaluate (x,method, type-"topNList",n-1:10,parameter-NULL) 


函数 参数 说 明 如 表 9-3 所 示 。 


表 9-3 evaluate $ 4 AAN 


参数 描述 
字符 串 或 列表 ， 和 定义 用 于 评价 的 推荐 方法 及 其 对 应 参数 。 如 果 给 定 一 个 字符 串 ， 它 定义 了 一 个 用 于 评 
价 的 推荐 方法 。 如 果 几 个 推荐 方法 需要 进行 比较 ，method 为 一 个 藤 套 列表 
type 选项 包括 "topNList", "ratings" 
n Top-N 列表 生成 
parameter | ”推荐 算法 的 参数 列表 


method 


(3) calcPredictionAccuracy () 
功能 : 计算 预测 精度 、 均 方 根 误 差 、 均 方 误差 和 平均 绝对 误差 。 对 于 topnlists， 结 果 返 回 二 分 类 变量 。 


` 使 用 格式 : 


calcPredictionAccuracy (x, data, http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15770/0EBPS/Text/...) 


x 为 模型 的 预测 值 ，data 为 模型 数据 。 
(4) getData () 


功能 : 通常 与 evaluationScheme 函 数 配 合 使 用 ， 用 于 访问 evaluationScheme 生 成 的 数据 。 


getData (x, pram) 


x-z"evaluationScheme', pramnJi: "train", "known", "unknown", 


(5) plot () 


功能: 


画 出 ROC 曲 线 和 PR 曲线 ， 用 于 推荐 模型 的 评价 


E SUE EN 


plot(x, y, annotate = FALSE, legend-"bottomright"http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15770/OEBPS/Text/...) 


x 为 画图 的 对 象 ，y 为 画图 的 类 型 ， 可 选 "ROC”(ROC 曲 线 ) 或 者 "prec/rec” (PR 曲线 ) ; annotate 为 注释 ， 默 认为 FALSE (没有 注释 ) ， 若 annotate=n， 则 第 n 条 线 有 注释 ; legend 可 设置 图 例 的 位 


置 ， 默 认 在 底部 右 侧 ， 其 他 选项 有 "bottom"、 "bottomleft", "left", "topleft"、 "top", "topright"、 "right" 和 "center 。 
- 实例 : 建立 基于 流行 度 、 基 于 用 户 的 协同 过 滤 和 基于 物品 的 协同 过 滤 推 荐 模型 ， 并 对 这 3 个 模型 进行 评价 ， 有 具体 见 代 码 清 单 9-2。 
代码 清单 9-2 ”推荐 模型 评价 代码 
井 ## 推 荐 模型 评价 
library (recommenderlab) 
data (MovieLense) 
JH dE. 介 方 案 
# 使 用 evaluationScheme 函 数 将 MovieLense 分 成 训练 集 和 测试 集 
scheme <- evaluationScheme (MovieLense, method = "split", train = 0.9, k = 1, given = 10, goodRating = 4) 
# 设 置 模型 popular，ubcf，ibcf 的 参数 
algorithms <- list (popular = list (name = "POPULAR", param = list (normalize = "Z-score")), ubcf = list (name = "UBCF", param = list(normalize = "Z-score", method = "Cosine",nn = 
# 对 模型 进行 评价 
results <- evaluate(scheme, algorithms, n = c(1, 3, 5, 10, 15, 20)) 


## 输 出 ROC 曲 线 和 Precision-recal1 曲 线 
pl ot (results, annotate = 1:3, legend = "topleft") 
plot(results, "prec/rec", annotate - 3) 


H 按照 评价 方案 建立 推荐 模型 


#ROC 
#precision-recall 


model.popular <- Recommender (getData (scheme, "train"), method = "POPULAR", parameter= algorithms [[1]] [[2]]) 
model.ibcf <- Recommender (getData (scheme, "train"), method = "UBCF", parameter=algorithms[[2]][[2]]) 
model.ubcf <- Recommender (getData (scheme, "train"), method = "IBCF", parameter=algorithms[[3]][[2]]) 
HH Bm TION 

predict.popular <- predict (model.popular, getData(scheme, "known"), type = "ratings") 

predict.ubcf <- predict (model.ubcf, getData(scheme, "known"), type = "ratings") 

predict.ibcf <- predict (model.ibcf, getData(scheme, "known"), type = "ratings") 

HE 做 误差 的 计算 

pcd or cde dt O 的 参数 "Know "和 "unknow "表示 对 测试 集 的 进一步 划分 i 

fo "know "表示 用 户 已 经 评分 的 ， 要 用 来 预测 的 items; "unknow "表示 用 户 已 经 评分 ， 要 被 预测 以 便于 进行 模型 评价 的 Items 
predict.err «- rbind(calcPredictionAccuracy (predict.popular, getData (scheme, "unknown")), 


calcPredictionAccuracy (predict.ubcf, getData (scheme, "unknown")), 
calcPredictionAccuracy (predict.ibcf, getData (scheme, "unknown"))) 
rownames (predict.err) <- c("POPULAR", "UBCF", "IBCF") 
predict.err 
运行 代码 清单 9-2 得 到 部 分 结果 如 下 : 
> predict.err 
RMSE MSE MAE 
POPULAR 1.085367 .178021 0.8633414 
UBCF 1.058562 .120554 0.8338625 
IBCF 1.147065 1.315759 0.8270356 


在 ROC 空 间 ， 算 法 绘制 的 ROC 曲 线 越 凸 向 西北 方向 ， 
上 吓 不 同 的 是 ，PR 曲 线 是 右上 吓 效 果 好 。 


效果 越 好 ， 有 时 不 同 分 类 算法 的 ROC 曲 线 存 在 交叉 ， 可 用 AUC (Area Under Curve， 曲 线 下 的 面积 ) 值 作为 算法 好 坏 的 评判 标准 。 与 ROC 曲 线 左 


图 9-1 为 运行 代码 清单 9-2 得 到 的 3 个 推荐 模型 的 ROC 曲 线 和 PR 曲线 。 无 论 是 ROC 曲 线 还 
果 更 好 。 


是 PR 曲线 ， 基 于 用 户 的 推荐 模型 的 AUC 都 是 最 大 的 ， 因 此 认为 在 本 例 中 基于 用 户 的 推荐 模型 比 其 他 两 个 模型 的 效 
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93 人 小结 
本 章 主要 介绍 了 R 语 言 中 用 于 智能 推荐 的 程序 包 recommenderlab。 
推荐 模型 并 进行 预测 。 最 后 ， 本 章 介 绍 了 如 何 对 智能 推荐 模型 进行 
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ROC 曲 线 和 PR 曲线 


预测 的 误差 计算 。 


0.10 


recall 


recommenderlab 包 主要 处 理 的 对 象 为 ratingMatrix， 用 于 构建 推荐 模型 的 函数 为 Recommender () 
评价 ， 包 括 ROC 曲 线 和 PR 曲线 以 及 推荐 模型 评分 


函数 ， 可 构建 IBCF 和 UBCF 等 


9.4 上 机 实验 


1. 实 验 目 的 
. 掌握 构建 智能 推荐 模型 ， 并 使 用 推荐 模型 进行 推荐 预测 ， 并 对 模型 进行 评价 。 
2. 实 验 内 容 


: 根据 Jester Joke 网 站 的 用 户 访 问 数据 构建 推荐 模型 ， 数 据 来 源 recommenderlab 包 中 的 数据 包 Jester5k。 创 建 评价 方案 评价 基于 流行 度 的 推荐 、 基 于 物品 的 协同 过 滤 推 荐 和 基于 SVD 的 推荐 。 选 择 表 现 更 优 
的 推荐 模型 为 用 户 进行 推荐 ,并 进行 评分 预测 。 


3. 实 验方 法 与 步骤 

1) 打开 R 软 件 ， 运 行 library (recommenderlab) 载 入 recommenderlab 包 ， 并 使 用 data (Jesterbk) 导入 数据 。 

2) 使 用 evaluationscheme () 函数 创建 一 个 数据 集 的 评价 方案 ， 将 数据 集 分 成 训练 数据 和 测试 数据 。 

3) 创建 一 个 列表 ， 定 义 基于 流行 度 的 推荐 、 基 于 物品 的 协同 过 滤 推 荐 和 基于 SVD 的 推荐 及 其 对 应 参数 。 

4) 使 用 evaluate () 函数 评估 这 3 个 推荐 模型 ， 并 给 出 一 个 评价 方案 。 

5) 使 用 plot () 函数 分 别 画 出 这 3 个 推荐 模型 的 ROC 曲 线 和 PR 曲线 。 

6) 使 用 Recommender () 函数 及 训练 数据 构建 推荐 模型 ， 并 使 用 predict () 函数 对 测试 数据 进行 推荐 预测 。 

7) 使 用 calcPredictionAccuracy () 函数 计算 各 个 模型 的 均 方 根 误差 、 均 方 误差 和 平均 绝对 误差 ， 选 择 表现 更 优 的 模型 为 用 户 进 行 推荐 ， 并 进行 评分 预测 。 
4. 思 考 与 实验 总 结 

1) 使 用 recommender () 函数 构建 不 同 的 推荐 模型 并 比较 各 模型 的 优 劣 。 


2) recommender () 不 同方 法 对 应 的 参数 有 很 多 ， 应 该 如 何 对 参数 进行 选择 ? 


第 10 章 ”时 间 序 列 


常用 的 时 间 序 列 模型 见 表 10-1， 本 章 以 ARIMA 模 型 与 指数 平滑 模型 为 例 介 绍 时 间 序 列 在 R 软 件 中 是 如 何 实现 的 。 


表 10-1 常用 时 间 序 列 模型 


模型 名 称 描述 
ARIMA 模型 可 以 实现 AR 模型 、MA 模型 、ARMA 模型 、 记 忆 ARIMA 模型 
GARCH 模型 也 称 为 条 件 异 方差 模型 ， 适 用 于 金融 时 间 序 列 


decompose() 时 间 订 列 的 变化 主要 受到 长 期 趋势 、 季 世 变 动 、 周 期 变动 和 不 规则 变动 这 4 个 因 
stl() 条 的 影响 。 根 据 序列 的 特点 ， 可 以 构建 加 法 模型 和 乘法 模型 

可 以 实现 简单 指数 平滑 法 、Holt 双 参 数 线性 指数 平滑 法 、Winters 线性 和 季节 人 性 指 
数 平滑 法 


时 间 订 列 分 解 


指数 平滑 法 HoltWinters() 


10.1 ARIMA 模 型 


下 面 应 用 R 语 言 建 模 步骤 ， 对 表 10-2 中 2013 年 1 月 到 2016 年 1 月 某 餐 厅 的 营业 数据 进行 建 模 。 


表 10-2 茶 餐 厅 的 销量 数据 


I T. 
TIEN, ET 


(5) 


日 期 销量 
0 TT 
TS TT 
AETA ma 
TI TT 
ESA 2s 
TT zm 
477 TT 
ESN TT 
2014 ^£ 10 H 4155 
oe Pn 有 a 
2014 f 12 Jj 6 | 


iR: 数据 详 见 第 10 章 /示例 程序 /data/arima_data.csv。 
1. 时 间 序 列 对 象 
在 R 软 件 中 ， 使 用 时 间 序 列 建 模 前 需要 先 将 数据 存储 到 一 个 时 间 序 列 对 象 中 。 我 们 可 以 使 用 函数 ts () 将 数值 类 型 的 观测 对 象 存储 为 时 间 序 列 对 象 。 


` 使 用 格式 : 


ts (data = NA, start = 1, end = numeric(), frequency = 1 ) 


其 中 ，data 是 时 间 序 列 观测 值 对 象 ， 必 须 为 数值 类 型 的 向 量 、 矩 阵 或 数据 框 ; start 是 用 来 指定 时 间 序 列 观测 值 对 象 的 第 一 个 时 间 点 ， 如 2000 年 1 月 ， 则 设置 start=c (2000, 1) ; end 用 来 指定 时 间 序 
列 的 终止 时 间 点 ; frequency 用 来 指定 数据 在 一 年 中 的 频数 。 


还 可 以 通过 函数 as.ts () 将 对 象 转换 成 时 间 序 列 ， 通 过 函数 is.ts () 判断 对 象 是 否 为 时 间 序列 对 象 。 


> Data-read.csv("arima data.csv",header=T) [,2] 
> is.ts (Data) 

[1] FALSE 
> salesl-ts (Data) 
> is.ts(salesl) 
[1] TRUE 
» sales2-as.ts (Data) 
» is.ts(sales2) 

[1] TRUE 


2 .绘制 时 间 序 列 图 

在 R 软 件 中 ， 可 以 使 用 plot.ts () 函数 来 画 出 时 间 序 列 的 时 序 图 。plot.ts () 用 法 同 plot () 。 

根据 平稳 时 间 序 列 的 均值 和 方差 都 为 常数 的 性 质 ， 平 稳 序列 的 时 序 图 显示 该 序列 值 始终 在 一 个 常数 附近 随机 波动 ， 而 且 波 动 的 范围 有 界 ; 如 果 有 明显 的 趋势 性 或 者 周期 性 ， 那 它 通常 不 是 平稳 序列 。 
- 实例 : 绘制 时 序 图 。 


> plot.ts (salesl,xlab=" 时 间 "，ylab=" 销 量 / Æ") 


结果 如 图 10-1 所 示 。 


图 10-1 原始 序列 的 时 序 图 


3. 时 间 序列 检验 分 析 


(1) 自 相 关 性 检验 


自 相关 图 中 的 两 条 虚线 表示 置信 界限 是 自 相关 系数 的 上 下 界 。 如 果 自 相关 系数 迅速 衰减 落 入 置信 区 间 内 ， 就 可 能 是 白 噪声 ;如 果 自 相关 系数 超出 置信 区 | 间 ， 那 么 表示 存在 相关 关系 ,而且 从 哪 一 阶 落 在 
置信 区 间 内 ， 就 表示 自 相 关 的 阶 数 是 几 阶 。 


` 使 用 格式 : 


s 


acf (x, lag.max = NULL,type = c(correlation, covariance, partial), plot = TRUE, na.action = na.fail, demean = TRUE, :*…) pacf(x, lag.max, plot, na.action, :-) 


acf () 函数 为 观测 值 序列 自 相 关 函 数 ， 其 中 参数 x 为 观测 值 序列 ; lag.max 为 与 acf 对 应 的 最 大 延迟 ; type 为 计算 acf 的 形式 ， 黑 认为 correlation。 当 没有 输出 ， 即 为 acf (Series) 时 ， 画 观测 值 序列 的 
自 相关 系数 图 。 


pacf () 函数 中 的 输入 参数 与 输出 参数 的 含义 同 acf () 函数 类 似 。 在 acf () 和 pacf () 中 设 定 plot=FALSE 可 以 得 到 自 相 关 和 偏 自 相 关 的 真实 值 。 


` 实例 : 绘制 原始 序列 的 自 相 关 图 。 


> acf(sales2,1ag.max = 30) 


图 10-2 的 自 相 关 图 显示 自 相 关系 数 长 期 大 于 零 ， 说 明 序列 间 具 有 很 强 的 长 期 相关 性 。 


Series sales 


图 10-2 原始 序列 的 自 相 关 图 


(2) 单位 根 检验 
对 时 间 序 列 的 平稳 性 检验 通常 使 用 单位 根 检验 的 方法 。 在 R 软 件 中 ， 单 位 根 检验 使 用 fUnitRoots 程 序 包 中 的 unitrootTest () 函数 可 以 实现 。 


使 用 格式 : 


unitrootTest(x, lags = 1, type = c("nc", "c", "ct"), title = NULL, description = NULL) 


其 中 ， 输 入 参数 x 为 观测 值 序列 ，1lags 为 用 于 校正 误差 项 的 最 大 沸 后 项 ，type 为 单位 根 的 回归 类 型 ， 返 回 参数 p 值 ，p 值 小 于 0.05 表 示 满 足 单位 根 检验 。 


> unitrootTest (sales1l) 


Augmented Dickey-Fuller Test 
Test Results: 
PARAMETER: 
Lag Order: 1 
STATISTIC: 


n: 0.9745 
Description: 
Wed Feb 24 11:41:27 2016 by user: lenovo 


> 


最 终 ， 由 图 10-1 时 序 图 显示 该 序列 具有 了 明显 的 单调 递增 趋势 ， 可 以 判断 为 是 非 平 稳 序列 ; 由 图 10-2 的 自 相关 图 显示 自 相 关系 数 长 期 大 于 零 ， 说 明 序 列 间 具有 很 强 的 长 期 相关 性 ， 可 以 判断 为 非 平 稳 序 
列 ; 表 10-3 单 位 根 检验 统计 量 对 应 的 p 值 显著 大 于 0.05， 判 断 该 序列 为 非 平稳 序列 ( 非 平 稳 序 列 一 定 不 是 白 噪声 序列 ) 。 


表 10-3 原始 序列 的 单位 根 检 验 


stat cValue p 值 
3.6862 — 1.9486 0.9748 


4.ARIMA RT 
(1) 非 平稳 时 间 序 列 差分 
对 于 非 平稳 时 间 序列 ， 首 先 需要 对 其 进行 差分 直到 得 到 一 个 平稳 时 间 序列 。 在 R 软 件 中 ， 可 以 使 用 diff () 函数 对 时 间 序 列 进行 差分 运算 。 


E 使 用 格式 : 


diff(x, lag = 1, differences = 1, http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15770/OEBPS/Text/...) 


其 中 ， 输 入 参数 x 代 表 观 测 值 序列 ; lag 代 表 差 分 运算 的 步 数 ， 默 认 值 代表 一 步 差分 ; differences 代 表 差 分 运算 的 阶 数 ， 默 认 值 代 表 一 阶 差分 。 


对 一 阶 差分 后 的 序列 再 次 做 平稳 性 判断 ， 过 程 同上 。 


ifsales-diff (salesl) 

t.ts(difsales,xlab-"H[i]", ylab-' 4 XX É / 元 ") 
(difsales,lag.max-30) 

trootTest (difsales) 


Ne 


ugmented Dickey-Fuller Test 
Test Results: 

PARAMETER: 
Lag Order: 1 
STATISTIC: 
DF: -2.4226 
P VALUE: 
t: 0.01689 

ns 0.2727 

Description: 

Wed Feb 24 15:00:16 2016 by user: lenovo 


> 


一 阶 差分 之 后 序列 的 时 序 图 和 自 相 关 图 分 别 如 图 10-3 和 图 10-4 所 示 。 一 阶 差分 之 后 序列 的 单位 根 检验 如 表 10-4 所 示 。 
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E103 ”一 阶 差分 之 后 序列 的 时 序 图 


Series difsales 


图 10-4 ”一 阶 差分 之 后 序列 的 自 相 关 图 
表 10-4 一 阶 差分 之 后 序列 的 单位 根 检 验 


-40332 -1.9489 0.0169 


T i 


结果 显示 ， 一 阶 差 分 之 后 的 序列 的 时 序 图 在 均值 附近 比较 平稳 地 波动 ， 自 相关 图 有 很 强 的 短期 相关 性 ， 单 位 根 检验 p 值 小 于 0.05， 所 以 一 阶 差 分 之 后 的 序列 是 平稳 序列 。 
(2) 时 间 序 列 模型 识别 定 阶 

使 用 R 软 件 中 的 acf () 和 pacf () 函数 来 分 别 给 出 时 间 序 列 的 自 相关 图 和 偏 自 相关 图 。 可 根据 自 相 关 图 和 偏 自 相关 图 对 时 间 序 列 模型 进行 定 阶 。 

根据 自 相 关 图 和 偏 自 相关 图 对 时 间 序 列 模型 进行 定 阶 : 

1) 若 平 稳 序 列 的 偏 相关 系数 是 截 尾 的 ， 而 自 相 关系 数 是 拖 尾 的 ， 则 序列 适合 AR 模 型 。 

2) 若 平 稳 序列 的 偏 相 关系 数 是 拖 尾 的， 而 自 相关 系数 是 截 尾 的 ， 则 序列 适合 MA 模型 。 


3) 若 平 稳 序 列 的 偏 相 关系 数 与 自 相关 系数 都 是 拖 尾 的 ， 则 序列 适合 ARMA 模 型 。 


pacf (difsales,lag.max-30) 


Series difsales 


图 10-5 “一 阶 差分 之 后 序列 的 偏 自 相 关 图 


在 一 阶 差 分 之 后 序列 的 自 相关 图 ( 见 图 10-4) 中 ，ACF 值 在 一 阶 后 迅速 跌 入 置信 区 间 ， 并 且 数 值 徘徊 在 置信 区 间 ， 没 有 收敛 趋势 ， 显 示 出 拖 尾 性 。 在 一 阶 差分 之 后 序列 的 偏 自 相关 图 ( 见 图 10-5) 


中 ，PACF 值 在 一 阶 后 迅速 跌 入 置信 区 间 ， 并 且 有 向 零 收敛 的 趋势 ， 显 示 出 截 尾 性 ， 所 以 可 以 考虑 用 AR 模型 拟 合 一 阶 差分 之 后 的 序列 ， 即 对 原始 序列 建立 ARIMA (1, 1, 0) 模型 。 


另外 ， 模 型 还 可 以 通过 B 


IC 进行 定 阶 。 此 处 计算 ARMA (p, q) ， 当 p 和 q 均 不 大 于 5 的 所 有 组 合 的 BIC 信 息 量 时 ， 取 其 中 BIC 信 息 量 达到 最 小 的 模型 阶 数 。 


> res«-armasubsets (y-difsales,nar-5,nma-5, y.name-'test',ar.method-'ols') 


> plot (res) 


图 10-6 显 示 BIC 值 从 下 往 上 ， 依 次 递减 。 模 型 选用 变量 的 单元 格 用 阴影 表示 。 较 好 的 模型 (具有 较 低 的 BIC 值 ) 处 于 较 高 的 行 中 。 第 一 行 中 ，test-lag1 被 选 入 模型 ，error-lag1 到 error-lag5 均 未 被 选 


取 ， 取 零 阶 ， 即 在 test-lag1、 


(3) ARIMA 模 型 
在 R 软 件 中 ，arima () BR 


CERE A: 


Arima(Series, order, se 


error-lag0 处 取得 最 小 BIC 值 。 因 此 当 p 值 为 1，q 值 为 O 时 ，BIC 值 最 小 。p、q 定 阶 完成 ， 即 对 原始 序列 建立 ARIMA (1, 1, 0) 模型 。 


(Intercept) 
test-lagl 
test-lag2 


图 10-6 ”一 阶 差分 之 后 序列 的 BIC 图 


数 设 置 时 序 模式 的 建 模 参 数 ， 创 建 ARIMA 时 序 模型 或 者 把 一 个 回归 时 序 模型 转换 为 ARIMA 模 型 。 


asonal, period,method, http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15770/OEBPS/Text/...) 


其 中 ，Series 为 观测 值 序列 ，order 为 构建 的 ARIMA (p, d, q) 模型 的 参数 ，seasona| 为 模型 的 季节 性 参数 ，period 为 观测 值 序列 的 周期 ，method 为 估计 模型 参数 所 使 用 的 方法 。 


> arima-Arima(salesl1, order-c(1,1,0)) 


> arima 
Series: sales 
ARIMA (1,1,0) 
Coefficients: 


ari 
0.6353 
s.e. 0.1236 
Sigma^2 estimated as 5969: log likelihood--207.84 
AIC-419.68 | AICc-420.04 . BIC-422.85 


(4) 白 噪声 检验 
在 使 用 ARIMA 模 型 定 阶 完成 后 ， 还 要 对 模型 进行 假设 检验 ， 检 验 残 差 序 列 是 否 为 白 噪声 序列 。 在 R 软 件 中 ，Box.test () 函数 用 于 检测 序列 是 否 符合 白 噪声 检验 。 


` 使 用 格式 : 


Box.test(x, lag = 1, type = c("Box-Pierce", "Ljung-Box"), fitdf = 0) 


其 中 ，x 为 Arima () 函数 返回 的 结果 对 象 的 residuals 残 差 。 


> Box.test(arima$residuals,lag-5,type = "Ljung-Box") 
Box-Ljung test 

data:  arima$residuals 

X-squared = 4.7078, df = 5, p-value = 0.4526 


p-value>0.05， 说 明 残 差 为 白 噪 声 序列 ， 通 过 白 噪声 检验 。 

5.ARIMA 模 型 预测 

(1) 模型 预测 

根据 参数 估计 得 到 的 时 间 序 列 模型 对 未 来 的 序列 值 进行 预测 ， 通 过 程序 包 forecast 中 的 函数 forecast.arima () 来 完成 。 


E SUE EN 


forecast.arima(object, h-10, level-2c(80,95),--.) 


object 是 函数 arima () 返回 的 对 象 ; h 指 定 预测 的 时 间 点 ; level 指 定 预测 区 间 的 置信 水 平 ， 默 认 情 况 为 80% 和 95% 置 信 水 平 下 的 预测 区 间 。 


> forecast=forecast .Arima (arima, h=5, level=c (80, 95) ) 


> forecast 
Point Forecast Lo 80 Hi 80 Lo 95 Hi 95 

38 4856.386 4757.370 4955.401 4704.955 5007.817 
39 4881.405 4691.614 5071.196 4591.145 5171.666 
40 4897.299 4620.220 5174.379 4473.543 5321.056 
41 4907.396 4549.041 5265.751 4359.340 5455.452 
42 4913.810 4480.622 5346.998 4251.306 5576.314 
P 


frecast 的 输入 结果 是 指 : 通过 arima 模 型 ， 置 信 水 平 为 80% 和 959% 时 ， 预 测 出 未 来 5 天 的 曹 业 额 及 曹 业 额 区 间 。 
(2) 绘制 原始 值 与 预测 值 图 形 
为 查看 原始 值 与 预测 值 的 图 形 效果 ， 可 以 使 用 plot.forecast () 函数 绘制 原始 值 与 预测 值 的 图 形 。 


使 用 格式 : 


plot.forecast (X…) 


其 中 ，x 为 forecast.arima () 晃 数 返回 的 结果 对 象 。 


> plot.forecast (forecast) 


使 用 函数 plot.forecast () 可 以 查看 原始 值 和 预测 值 的 图 形 效 果 ， 如 从 图 10-7 可 以 直观 地 看 到 营业 额 的 发 展 趋势 。 


forecasts from ARIMA (1,1,0) 


图 10-7 ”forecast.atrima 预 测 5 天 以 后 的 销量 预测 图 


10.2 ”其 他 时 间 序 列 模型 


1. 组 合 模型 
时 间 序 列 的 变化 主要 受到 长 期 趋势 、 季 节 变 动 、 周 期 变动 和 噪声 变动 这 4 个 因素 的 影响 。 根 据 序列 的 特点 ， 可 以 构建 加 法 模型 和 乘法 模型 。 
decompose () 函数 、stl () 函数 可 以 估计 出 时 间 序 列 中 趋势 的 、 季 节 性 的 和 不 规则 的 部 分 ， 而 此 时 间 序列 是 可 以 用 相 加 模型 描述 的 。 


` 使 用 格式 : 


decompose (x, type = c("additive", "multiplicative"), filter = NULL) 


在 decompose () 函数 中 ，x 为 时 间 序 列 对 象 ，type 指 定 分 解 为 加 法 模型 还 是 乘法 模型 ，filter 是 滤波 系数 。 


stl(x, S.Window，s.aqegree=0，…) 


在 stl () 国 数 中 ，x 同 样 为 时 间 序 列 对 ; s.window 因 为 没有 默认 值 ， 所 以 必须 手动 设置 ， 可 以 采用 "periodic' 或 Loess 方 法 提取 季节 跨度 ， 若 采用 Loess 方 法 ，s.window 的 值 必须 为 大 于 7 的 奇数 ; 
s.degree 可 取 1 或 0， 为 局 部 多 项 式 拟 合 季节 性 提取 的 程度 。 


> sales<-ts (Data, start-c (2013,1) , frequency=12) HET A) AIE 
> sales.de = decompose (sales, type-" additive") 
> sales.de 


Sx 

Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 
2013 3023 3039 3056 3138 3188 3224 3226 3029 2859 2870 2910 3012 
2014 3142 3252 3342 3365 3339 3345 3421 3443 3428 3554 3015 3046 
2015 3614 3574 3635 3738 3707 3827 4039 4210 4493 4560 4637 4755 
2016 4817 
$seasonal 

Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 
2013 40 33 50 -56 -65 79 22 -94 -50 -23 20 
2014 40 33 50 44 -56 -65 79 22 -94 -50 -23 20 
2015 40 33 50 -56 -65 79 22 -94 -50 -23 20 
2016 40 
Strend 

Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 
2013 NA NA NA NA NA NA 3053 3067 3087 3109 3125 3136 
2014 3149 3174 3215 3268 3325 3381 3427 3460 3486 3514 3545 3580 
2015 3626 3684 3760 3846 3931 4020 4116 NA NA NA NA NA 
2016 NA 
Srandom 

Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 
2013 NA NA NA NA NA NA 94 -59 -134 -189 -192 -144 
2014 -47 44 77 54 69 29 =86 =39 36 90 93 46 
2015 .-52 -143 -175 -152 -168 -127 -156 NA NA NA NA NA 
2016 NA 
Sfigure 


[1] 40 33 50 44 -56 -65 79 22 -94 -50 -23 20 
Stype 

[1] "additive" 

attr(,"class") 
[ 
> 


1] "decomposed. ts" 
plot (sales.de) 


图 10-8 包 含 了 4 部 分 ， 自 上 而 下 依次 为 原始 时 间 序 列 的 观测 值 、 时 间 序列 分 解 趋势 图 、 时 间 序 列 分 解 季节 变动 图 、 时 间 序 列 分 解 噪声 图 。 


> sales.stl = stl(sales,s.window = "periodic") 
> sales.st] 

Call: 

stl(x = sales, s.window = "periodic") 
Components 


Seasonal trend remainder 


Jan 2013 5.73 3109 -91.9 
Feb 2013 -53.40 3103 -10.3 
Mar 2013 -28.08 3096 -12.2 
Apr 2013 0.99 3091 45.7 
May 2013 -41.61 3086 143.4 
Jun 2013 -26.07 3085 165.6 
Mar 2015 -28.08 3752 -89.2 
Apr 2015 0.99 3843 -105.6 
May 2015 -41.61 3933 -184.3 
Jun 2015 -26.07 4036 -182.5 
Jul 2015 32.13 4138 -131.4 
Aug 2015 -4.78 4243 -28.0 
Sep 2015 -7.68 4347 153.5 
Oct 2015 19.36 4456 85 

Nov 2015 37.73 4564 35.4 
Dec 2015 65.68 4675 13.8 
Jan 2016 5.73 4787 24.2 

» plot(sales.stl) 


Decomposition of additive time series 
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图 10-8 decompose 季 节 性 时 间 序 列 分 解 图 
图 10-9 包 含 了 4 部 分 ， 自 上 而 下 依次 为 原始 时 间 序 列 的 观测 值 、 时 间 序 列 分 解 趋势 图 、 时 间 序 列 分 解 季节 变动 图 、 残 差 自 相 关 图 。 
采用 decompose () stl () 对 时 间 序 列 进行 分 解 后 ， 建 模 、 预 测 的 工作 一 般 通过 指数 平滑 算法 实现 。 
2. 指 数 平 滑 法 


在 R 软 件 中 ， 简 单 指数 平滑 法 、Holt 双 参数 线性 指数 平滑 法 、Winters 线 性 和 季节 性 指数 平滑 法 可 以 通过 HoltWinters () 函数 实现 。 
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图 10-9 st 季节 性 时 间 序 列 分 解 图 
HoltWinters () 函数 会 给 出 时 间 序 列 自 身 时 间 段 内 的 预测 ， 生 成 的 预测 值 存在 于 一 个 变量 列表 fitted 中 。 可 以 用 plot () 函数 绘制 原始 数据 和 预测 值 的 图 形 查看 预测 效果 。 


.使 用 格式 : 


HoltWinters (x, alpha = NULL, beta = NULL, gamma = NULL,seasonal = c("additive", "multiplicative"),start.periods = 2, l.start = NULL, b.start = NULL,s.start = NULL, optim.start 


其 中 ，x 为 时 间 序 列 对 象 ，alpha、beta、gamma 都 是 HoltWinters 算 法 的 过 滤 系 数 。beta 和 gamma 是 Holt 指 数 平滑 法 或 Winters 指 数 平 滑 法 的 参数 。 如 果 beta 设 置 为 FALSE， 该 国 数 将 做 指数 平滑 ; 
如 果 gamma 指 定 为 FALSE， 那 么 该 函数 适用 于 拟 合 非 季 节 性 模型 如果 gamma 与 beta 同 时 指定 为 FALSE， 那 么 该 函数 适用 于 简单 指数 平滑 模型 。 通 过 seasonal 参 数 选择 additive 或 multiplicative 季 节 性 模 
型 ， 默 认 选 择 additive 而 且 仪 在 gamma 非 零 时 生效 。start.period 是 用 于 x 对 象 的 frequency 自 动 检测 ， 不 能 小 于 2。|.start、b.start、s.start 分 别 表示 启动 值 、 趋 势 值 和 季节 分 量 的 初始 值 。optim.start 设 置 
向 量 命名 的 组 件 alpha、beta、gamma 包 含 优化 的 初始 值 ， 必 须 指定 唯一 需要 的 值 ， 在 只 使 用 alpha、beta、gamma 中 的 一 个 参数 时 忽略 本 参数 。 


HoltWinters () 函数 仅 得 到 预测 模型 ， 如 果 要 对 未 来 的 时 间 做 预测 ， 需 要 调用 forecast () 函数 。 


由 图 10-8 和 图 10-9 可 知 ， 该 餐馆 的 营业 数据 存在 明显 的 趋势 性 与 季节 性 。 因 此 可 以 采用 Winters 线 性 和 季节 性 指数 平滑 法 进行 建 模 了 预测 。 


> hw.sales = HoltWinters (sales,alpha = TRUE,beta = TRUE, gamma = TRUE) 
> hw.sales 
Holt-Winters exponential smoothing with trend and additive seasonal component. 
Call: 
HoltWinters(x = sales, alpha = TRUE, beta = TRUE, gamma = TRUE) 
Smoothing parameters: 
alpha: TRUE 
beta : TRUI 
gamma: TRUI 
Coefficients: 
[,1] 

a 4790.861111 
b -54 . 833333 
s1 110.763889 
s2 159.805556 
853 130.597222 
s4 46.722222 


Ld D 5 


s5 -3.06944 

s6 206.388889 
s7 -4.44444 

s8  -195.23611] 
s9  -205.61111] 
S10 -181.361] 


s11 -90.694444 
s12 26.138889 
> plot (hw.sales) 


Winters 模 型 拟 合 图 如 图 10-10 所 示 。 
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图 10-10 餐饮 营业 额 Wintets 模 型 拟 合 图 


. 实例 : 建 模 并 对 模型 的 残 差 进 行 自 相关 检验 与 白 噪声 检验 。 


>library (forecast) 


>hw.model = forecast.HoltWinters (hw.sales,h=6, level=c (80, 95)) 
>hw.model 

Point Forecast Lo 80 Hi 80 Lo 95 Hi 95 

Feb 2016 4846.792 4640.947 5052.636 4531.980 5161.603 
Mar 2016 4841.000 4380.718 5301.282 4137.060 5544.940 
Apr 2016 4756.958 3986.759 5527.157 3579.041 5934.876 
May 2016 4618.250 3490.794 5745.706 2893.955 6342.545 
Jun 2016 4513.625 2987.043 6040.207 2178.919 6848.331 
Jul 2016 4668.250 2704.620 6631.880 1665.138 7671.362 


acf (hw.model$residuals) 
Box.test(hw.model$residuals,lag = 10,type = 'Ljung-Box') 
Box-Ljung test 

data:  hw.model$residuals 
X-squared - 4.3666, df - 


10, p-value = 0.9293 


由 Winters 模 型 残 差 自 相关 图 ( 见 图 10-11) 可 知 ， 各 阶 的 残 差 系数 都 没有 超过 执行 区 间 ， 可 以 初步 判断 该 残 差 不 是 自 相 关 的 ; 通过 白 噪 声 检 验 p 值 为 0.9293， 不 能 拒绝 原 假 设 ， 说 明 残 差 为 白 噪声 序 


列 ， 不 存在 自 相关 性 。hw.model 模 型 对 该 餐饮 营业 额 拟 合 的 效果 优秀 。 


~ 


通过 模型 残 差 的 检验 后 ， 画 出 原始 值 与 预测 值 的 图 形 ， 以 便 直观 观察 未 来 半年 的 餐饮 营业 额 的 变化 趋势 。 


> plot (hw.model) 


餐饮 营业 额 Winters 模 拟 预 测 图 如 图 10-12 所 示 。 


Series hw.modelS$residuals 
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图 10-12 ”餐饮 营业 额 Wintets 模 型 预测 图 


10.3 小结 


本 章 重 点 介绍 了 时 间 序 列 建 模 在 R 语 言 中 的 实现 过 程 。 通 过 对 本 章 的 学 习 ， 应 该 掌握 时 间 序 列 的 在 R 语 言 中 实现 的 步骤 以 及 每 一 步骤 如 何 通过 R 软 件 实现 ， 从 而 实现 应 用 时 间 序 列 模型 预测 时 间 序列 将 来 
的 走势 。 


10.4 上 机 实验 


1. 实 验 目的 


: 掌握 时 间 序 列 常用 算法 的 建 模 及 预测 过 程 。 


(1) 时 间 序 列 平稳 性 检验 

: 绘制 时 间 序 列 图 、 自 相关 检验 、 偏 自 相关 检验 、 单 位 根 检 验 、 白 噪声 检验 。 

(2) 时 间 序 列 建 模 分 析 

非 平 稳 时 间 序 列 处 理 、 模 型 识别 定 阶 、 残 差 白 噪声 检验 。 

(3) 时 间 序 列 模型 预测 

:时间 序 列 模型 预测 及 绘制 时 间 序 列 发 展 趋势 图 。 

3. 实 验方 法 与 步骤 

(1) 实验 一 

根据 餐厅 营业 额 数据 ， 使 用 ARIMA 模 型 进行 建 模 并 预测 半年 后 餐厅 的 营业 额 。 

1) 读 取 和 餐厅 营业 额 数据 。 

2) 将 餐厅 营业 额 数据 转换 为 时 间 序 列 对 象 。 

3) 对 时 间 序 列 对 象 进行 平稳 性 检验 ， 绘 制 时 间 序 列 、 自 相关 检验 、 偏 自 相关 检验 、 单 位 根 检验 、 白 噪声 检验 等 图 。 
4) 时 间 序 列 建 模 分 析 。 如 果 时 间 序 列 是 平稳 序列 ， 则 可 以 直接 进行 ARIMA 模 型 定 阶 ， 进 而 对 所 得 模型 做 残 差 的 白 噪 声 检 验 ; 如果 是 非 平 稳 序列 ， 则 需要 先进 行 差分 处 理 。 
5) 根据 时 间 序 列 模 型 预测 半年 后 餐厅 的 营业 额 并 绘制 时 间 序 列 发 展 趋势 图 。 

(2) 实验 二 

根据 餐厅 营业 额 数据 ， 使 用 HoltWinters 法 建 模 并 预测 半年 后 餐厅 的 营业 额 。 

1) 读 取 和 餐厅 营业 额 数据 。 

2) 将 餐厅 营业 额 数据 转换 为 时 间 序 列 对 象 。 

3) 对 时 间 序 列 对 象 进行 分 解 ， 画 出 时 间 序 列 的 原始 值 、 趋 势 部 分 、 季 节 变 动 部 分 、 随 机 部 分 的 图 形 。 
4) 分 析 时 间 序 列 对 象 分 解 图 ， 确 定 使 用 指数 平滑 法 的 模型 。 

5) 对 时 间 序 列 对 象 使 用 HoltWinters 法 进行 建 模 分 析 ， 对 所 得 模型 做 残 差 的 白 噪声 检验 。 

6) 根据 时 间 序 列 模型 预测 半年 后 餐厅 的 营业 额 并 绘制 时 间 序列 发 展 趋 势 图 。 

4 思考 与 实验 总 结 


对 一 个 新 的 时 间 序 列 ， 如 何 进行 序列 的 平稳 性 检验 、 建 模 分 析 以 及 模型 预测 。 
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第 11 章 ”可视化 数据 挖掘 工具 Rattle 


11.1 Rattle 简 介 及 其 安装 


作为 优秀 的 统计 软件 包 ，R 语 言 提供 了 强大 的 数据 挖掘 工具 ， 但 是 这 些 工具 分 散在 数 以 干 计 的 R 包 之 中 ， 而 且 编 写 脚本 往往 也 会 成 为 快速 解决 问题 的 障碍 。rattle 包 的 出 现 很 好 地 解决 了 这 个 问题 。 
11.1.1 ”Rattle 简 介 


Rattle 是 一 个 用 于 数据 挖掘 的 R 的 图 形 交互 界面 GUI) ， 可 用 于 快捷 地 处 理 常 见 的 数据 挖掘 问题 。 从 数据 的 整理 到 模型 的 评价 ，Rattle 给 出 了 完整 的 解决 方案 。Rattle 和 R 平 台 良 好 的 交互 性 ， 又 为 用 户 
使 用 R 语 言 解决 复杂 问题 开启 了 方便 之 门 。Rattle 易 学 易 用 ， 不 要 求 很 多 的 R 语 言 基础 ， 被 广泛 地 应 用 于 数据 挖掘 实践 和 教学 之 中 。 


在 R 中 ，Rattle 使 用 RGtk2 包 提供 的 Gnome 图 形 用 户 界 面 ， 可 以 在 Windows、MAC OS/X、Linux 等 多 个 系统 中 使 用 。 


Rattle 不 仅仅 是 一 个 所 见 所 得 GUI 工具 ， 它 还 有 很 多 扩展 功能 。pmm| 包 是 在 Rattle 基 础 上 发 展 起 来 的 一 个 R 包 ， 它 使 用 基于 PM ML 的 开放 标准 XML， 或 预测 模型 标记 语言 。 按 这 种 方式 由 R 导 出 的 模型 可 
以 输入 类 似 于 由 云 计算 机 驱动 的 ADAPA 决 策 引 警 的 工具 ， 从 而 可 以 在 多 个 平台 上 运行 。 


11.1.2 ”Rattle 安 装 
以 Windows 系 统 中 的 安装 为 例 说 明 ， 安 装 步骤 如 下 所 示 。 在 R 控 制 台 输入 : 


install.packages ("RGtk2") 
install.packages ("rattle") 


即 可 完成 ratte 包 的 安装 。 


通过 library (rattle) 载 入 这 个 包 ， 并 通过 rattle () 命令 调 出 Rattle 界 面 。 


library (rattle) 
rattle( ) 


Rattle 初 始 界面 如 图 11-1 所 示 。 


RB R Data Miner - [Rattle] 


Project Tools Settings Help @ Rattle 2000€ 3.4.1 togaware.corr 
4| 8 | L] «| | o 4 
Report Export fib 退出 


Explore | Test | Transform | Custer | Associate | Mode | Evaluate | Log | 


Source: @ Spreadsheet © ARFF © ODBC © R Dataset © RData File © Library © Corpus © Script 


Filename: Separator: | Decimal: | Header 


Parülon (70/15/15 | (Seed:| |42 | [View 


Q input @ ignore Weight Calculator: 


Target Data Type 
| 图 Auto © Categoric © Numeric © OX 


Welcome to Rattle (rattle.togaware.com). 


图 11-1 Rattle 的 初始 界面 


第 11 章 ”可视化 数据 挖掘 工具 Rattle 


11.1 ”Rattle 简 介 及 其 安装 
作为 优秀 的 统计 软件 包 ，R 语 言 提 供 了 强大 的 数据 挖掘 工具 ， 但 是 这 些 工具 分 散在 数 以 干 计 的 R 包 之 中 ， 而 且 编 写 脚本 往往 也 会 成 为 快速 解决 问题 的 障碍 。rattle 包 的 出 现 很 好 地 解决 了 这 个 问题 。 


11.1.1 ”Rattle 简介 


Rattle 是 一 个 用 于 数据 挖掘 的 R 的 图 形 交互 界面 GUI) ， 可 用 于 快捷 地 处 理 常 见 的 数据 挖掘 问题 。 从 数据 的 整理 到 模型 的 评价 ，Rattle 给 出 了 完整 的 解决 方案 。Rattle 和 R 平 台 良 好 的 交互 性 ， 又 为 用 户 
使 用 R 语 言 解决 复杂 问题 开启 了 方便 之 门 。Rattle 易 学 易 用 ， 不 要 求 很 多 的 R 语 言 基础 ， 被 广泛 地 应 用 于 数据 挖掘 实践 和 教学 之 中 。 


在 R 中 ，Rattle 使 用 RGtk2 包 提供 的 Gnome 图 形 用 户 界面 ， 可 以 在 Windows、MAC OS/X、Linux 等 多 个 系统 中 使 用 。 


Rattle 不 仅仅 是 一 个 所 见 所 得 GUI 工 具 ， 它 还 有 很 多 扩展 功能 。pmml 包 是 在 Rattle 基 础 上 发 展 起 来 的 一 个 R 包 ， 它 使 用 基于 PMML 的 开放 标准 XML， 或 预测 模型 标记 语言 。 按 这 种 方式 由 R 导 出 的 模型 可 
以 输入 类 似 于 由 云 计算 机 驱动 的 ADAPA 决 策 引 警 的 工具 ， 从 而 可 以 在 多 个 平台 上 运行 。 


11.1.2 ”Rattle 安 装 
以 Windows 系 统 中 的 安装 为 例 说 明 ， 安 装 步 骤 如 下 所 示 。 在 R 控 制 合 输入 : 


install.packages ("RGtk2") 
install.packages ("rattle") 


即 可 完成 ratte 包 的 安装 。 


通过 library (rattle) 载 入 这 个 包 ， 并 通过 rattle () 命令 调 出 Rattle 界 面 。 


library (rattle) 
rattle( ) 


Rattle 初 始 界面 如 图 11-1 所 示 。 


Tools Settings 


EL UM enel 


ERES. 
:执行 :| 新 建 ” 打 开 保存 | Report Export | 停止 退出 


Source: @ Spreadsheet © ARFF © ODBC © R Dataset © RData File © Library © Corpus © Script 


Filename: Separator: 围 Decimal: 图 Header 


| | Target Data Type 
Qos Quee weight Cakubtor: | | | @ Auto © Categoric © Numeric © XWX | 


Welcome to Rattle (rattle.togaware.com). 


图 11-1 Rattle 的 初始 界面 


11.2 功能 预 抠 


如 图 11-1 所 示 ，Rattle 的 界面 中 依次 是 菜单 栏 、 工 具 栏 和 标签 栏 ， 如 图 11-2 所 示 。 

标签 栏 从 左 到 右 依次 排列 ， 各 自 完成 数据 挖掘 工作 中 的 一 个 相关 步骤 。 

1) Data: 选择 数据 源 ， 输 入 数据 。 

2) Explore: 执行 数据 探索 ， 理 解数 据 分 布 情况 。 

3) Test: 提供 各 种 统计 检验 。 

4) Transform: 变换 数据 的 形式 。 

5) Cluster: 数据 聚 类 ， 包 括 K-Means 聚 类 、 系 统 聚 类 和 双 聚 类 (biclustering) 。 

6) Associate: 关联 规则 方法 。 

7) Model: 内 容 最 丰富 的 一 个 标签 ， 包 括 多 种 算法 : 决策 树 、 随 机 森林 、 组 合算 法 、 支 持 向 量 机 、 线 性 模型 、 人 工 神经 网 络 、 生 存 分 析 ， 如 图 11-2 所 示 。 


8) Evaluate: 模型 评估 ， 在 Evaluate 界 面 中 ， 程 序 包 提 供 了 一 系列 模型 评估 标准 ， 其 中 有 混淆 矩阵 (Error Matrix) 、 模 型 风险 表 (Risk) 、 模 型 ROC 曲 线 (ROC) 、 得 分 表 (Score) 等 各 类 模型 评 
估 指 标 ， 如 图 11-3 所 示 。 
Leu m: 
EE — 
Rattle XXXX 3.4.1 togaware.corr. 
| «| | eo 4 | 
新 建 ”打开 GG Report Export 停止 ”退出 


No Target Algorithm: 图 Traditional © Conditional Model Builder: rpart 


Min Split: (20 £ Max Depth: (20 $| Priors: | | Include Missing 
Min Bucket: 7 $ Complexity: (0.0100 $| Loss Matrix: | | 


图 11-2 Model jm 


DT 一 一 一 一 
roject Tool Settings Help @ fatte XOX 3.4.1 toaaware.corr. 


DO B BH CAN 
新 建 ”打开 保存 Repot Expot — 停止 退出 


4*4. 
LEM 
LE 
d: 
.4 
^ 


Datz | Explore | Test | Transform | Cluster | Associate | Mode Evaluate | Log 


Type: 图 Error Matrix Risk Cost Curve © Hand Lift ROC Precision Sensitivity Pr v Ob Score 


Model: | | Tree | | Boost| | Forest| | SVM | | Linear |_| Neural Net| | XXXX| | KMeans | | HClust 


Data: 图 Training Validation Testing Full Enter CSV File | (无 ) | B R Dataset > | 


Risk Variable: No risk variable currently selected Report: @ Class Probability — Incdude: @ Identifiers All 


图 11-3 Evaluate 界面 


9) Log: 数据 挖掘 过 程 的 纪录 。 选 项 Log 主 要 用 于 记录 以 上 所 介绍 的 所 有 功能 的 具体 执行 情况 ， 可 以 给 出 所 进行 Rattle 操 作 的 R 代 码 。 


113 数据 导 


数据 的 来 源 可 以 有 很 多 。R 内 置 许多 数据 集 ， 也 能 从 各 式 各 样 的 来 源 中 读 取 数据 ， 且 支持 大 量 的 文件 格式 。 利 用 R 语 言 强 大 的 数据 导入 能 力 ，Rattle 也 可 以 直接 访问 这 些 数据 。 
11.3.1 导入 CSV 数 据 


有 众多 的 格式 和 文本 文件 标准 可 用 于 存储 数据 。 最 常用 于 存储 数据 的 通用 格式 为 分 隔 符 值 ( 即 CSV 或 制 表 符 分 隔 文 件 ) 。 
使 用 Data 标 签 中 的 Spreadsheet 按 钮 ， 我 们 就 可 以 轻松 将 CSV 文 件 导 入 Rattle 中 ， 如 图 11-4 所 示 。 
单 击 Filename 可 以 打开 文件 选择 对 话 框 ， 选 择 需要 导入 的 CSV 文 件 。 例 如 ， 想 导入 rattle 包 自 带 的 天 气 数 据 集 weather.csv， 如 图 11-5 所 示 。 


现在 我 们 需要 将 数据 从 文件 中 导入 Rattle 中 ， 通 常 单 击 执行 按钮 (或 者 按 F2 键 ) ， 如 图 11-6 所 示 。 导 入 结果 如 图 11-7 所 示 。 
b am » FU ób cogl 


D B8B BH «| 8] 
FE ”打开 ”保存 | Report Export | 停止 退出 


Source: | 图 Spreadsheet | © ARFF © ODBC © RDataset © RData File © Library © Corpus © Script 


| Filename: | 


图 11-4 导入 电子 表格 数据 选项 


^ 大 小 修改 日 期 ^ 
180.6 KB 2015/5/9 
366 3x15 2015/5/9 


cvme — [s 
Ce 


图 11-5 “打开 tattle 包 自 带 的 weathet.csv 数 据 集 


Q& R Data Miner - [Rattle] 


fub 退出 


Source: @ Spreadsheet © ARFF © ODBC © R Dataset © RData File © Library © Corpus © Script 


Filename: |i” ther.csv , | 


E11-6 ” 单 击 执行 按钮 ， 导 入 数据 到 Rattle 中 


Target Data Type 
图 Auto © Categoric © Numeric © OX 


Q Input @ ignore Weight Calculator: 


No. Variable Data Type Input Ignore Weight Comment 


Location 


MaxTem 


Rainfall 


O COO N mm un d» ù N rm 


MinTemp 


p 


Evaporation 
Sunshine 

WindGustDir 
WindGustSpeed 
WindDir9am 
WindDir3pm 
WindSpeed9am Numeric 
WindSpeed3om Numeric 


Date Ident © 


Constant 


Numeric 


Numeric 


Numeric 


Numeric 


Numeric 


Categoric 图 


Numeric 


Categoric 图 


Categoric @ 


Unique: 366 


Unique: 
Unique: 
Unique: 
Unique: 
Unique: 
Unique: 
Unique: 
Unique: 
Unique: 
Unique: 
Unique: 


Uniaue: 


1 
180 


114 Missing: 3 
16 Missing: 3 
35 Missing: 2 
16 Missing: 31 
16 Missing: 1 
22 Missing: 7 
26 


图 11-7 “显示 weathet.csv 数 据 集 中 的 变量 名 


数据 导入 后 ，Rattle 会 利用 sample 函 数 进 行 随机 抽样 ， 将 样本 按照 70: 15: 15 的 比例 分 成 训练 集 、 验 证 集 和 测试 集 ， 我 们 可 以 通过 Partition 调 整 各 部 分 数据 集 的 占 比 ， 也 可 以 通过 Seed 改 变 随机 种 
。 查 看 Log 的 记录 : 


set.seed(crv$seed) 
crs$nobs <- nrow(crs$dataset) # 366 observations 


crs$sample <- crs$train <- sample (nrow(crs$dataset), 0.7*crsS$nobs) # 256 observations 
crs$validate <- sample(setdiff (seq len(nrow(crsS$Sdataset)), crsS$train), 0.15*crs$nobs) # 54 observations 
crs$test <- setdiff(setdiff(seq len(nrow(crs$dataset)), crsS$train), crs$validate) # 56 observations 


通过 分 区 的 脚本 可 以 看 出 ，weather 数 据 集 一 共有 366 个 样本 ， 其 中 训练 集 有 256 个 样本 ， 验 证 集 有 54 个 样本 ， 测 试 集 有 56 个 样本 。 

我 们 还 可 以 通过 View 或 Edit 按 钮 ， 对 weather 数 据 集 进 行 查看 或 修改 。 界 面 如 图 11-8 所 示 。 

如 果 通 过 Edit 按 钮 调 出 数据 ， 可 以 直接 进行 数据 修改 再 单 击 “ 确 定 ”按钮 保存 即 可 完成 数据 的 修改 工作 (依赖 于 RGtk2Extras 扩 展 包 ， 第 一 次 打开 时 会 提示 是 否 安装 ， 直 接 确定 安装 即 可 ) 。 
细心 的 读者 估计 已 经 留意 到 ， 图 11-5 的 右 下 角 有 个 选择 文本 文件 格式 的 选项 (默认 情况 下 是 CSV Files) ， 还 可 以 选择 TXT、Excel、Excel 2007 格 式 的 文件 ， 如 图 11-9 所 示 。 


假设 在 我 的 文档 目录 下 已 经 包括 3 个 文件 : iris.txt、iris.xls、iris.xlsx， 接 下 来 演示 如 何 将 这 3 个 文件 分 别 导 入 Rattle 中 。 


' @ Rattle Dataset - c 


Dovaowmh w Dip: 


P | 


Date 


2007-11-01 
2007-11-02 
2007-11-03 
2007-11-04 
2007-11-05 
2007-11-06 
2007-11-07 
2007-11-08 
2007-11-09 


2007-11-10 
2007-11-11 
2007-11-12 
2007-11-13 
2007-11-14 
2007-11-15 


t version 0.6.1 


Canberra 
Canberra 
Canberra 
Canberra 
Canberra 
Canberra 
Canberra 
Canberra 
Canberra 
Canberra 
Canberra 
Canberra 
Canberra 
Canberra 
Canberra 


24.3 0 3.4 
26.9 3.6 4.4 
5.8 
7.2 
5.6 


Location MinTemp MaxTemp Rainfall Evaporation Sunshine WindGustDir WindGustSpeed WindDir9am Windt 5 


6.3 
9.7 
3.3 
9.1 
10.6 


图 11-8 单 击 View 或 Edit 按 钮 调 出 weathet 数 据 集 


m 


NW 30 SW 
ENE 
NW 


n— —————————————— 


Jefes ens 


~ 大 小 < 修改 日 期 4^ 
180.6 KB 2015/5/9 
366 Z5 2015/5/9 


"Th weather.csv 


CSV Files 
j TXT Files 


All Files 


图 11-9 导入 的 电子 表格 可 以 是 CSV、TXT、Excel、Excel 2007 等 格式 


由 于 TXT 文 件 是 由 制 表 符 分 隔 (Tab-Delimited) ， 所 以 需要 将 Separator (分 隔 符 ) 设置 为 “  ”( 删 掉 豆 号 ， 因 默认 是 导入 CSV 格 式 的 文件 ) ， 就 能 将 TXT 文件 导入 Rattle 中 ， 如 图 11-10 所 示 。 


nocere eyra 
执行 


ETDS 
新 建 ” 打开 保存 | Report Export | 停止 ”退出 


Source: @ Spreadsheet © ARFF © ODBC © R Dataset © RData Fille © Library © Corpus © Script 


Flename: [iriste /lls irist r3 eparator:| beca: .| Header 


i 1! . Target Data Type 
e nput e gnore Weight Calculator: | | | 图 Auto © Categoric ©@ Numeric © XXXX | 
ight Comment 


No. Variable Data Type Input XXXX i Weig 

1 SepalLength Numeric @ Unique: 35 
Sepal.Width Numeric ®@ Unique: 23 
Petal.Length Numeric @ Unique: 43 
Petal.Width Numeric $ Unique: 22 


Species Categoric © Unique: 3 


图 11-10 “导入 TXT 文件 
可 以 通过 单 击 View 按 钮 查看 导入 的 数据 。 


如 图 11-11 所 示 ， 将 iris.xls、iris.xlsx 分 别 导 入 Rattle 中 。 


;e|0D B5 u E <4 oa 
执行 NE 打开 — ERR | Report Expot | 停止 退出 


1! 1 l , Target Data Type 
Oo nput e gnore Weight Calculator: EE | Q Auto © Categoric ®© Numeric © XXXX | 


No. Variable Data Type Input XXXX | Comment 
1 Sepallength Numeric 图 Unique: 35 


Sepal.Width Numeric 图 Unique: 23 


2 

3  Petallength Numeric 图 Unique: 43 
4 PetalWidth Numeric Q9 Unique: 22 
9 


Species Categoric © Unique: 3 


a) FA xls 文件 


图 11-11 导入 xls 文 件 和 xlsx 文 件 


Qg R Data Miner - [Rattle (iris.xlsx) 
Project Tool Settings Help Q) Rattle 2000€ 3.4.1 toaaware.cor 
@ g 


PRE li 
新 建 ”打开 保存 | Report Expot — 停止 退出 


Datz | Explore | Test | Transform | Cluster | Associate | Mode | Evaluate | Log. 
Source: @ Spreadsheet © ARFF © ODBC © RDataset © RData File © Library © Corpus © Script 


Filename: [| . iris.xlsx r3 Separator: |, | Decimal: 围 Header 
Partition |70/15/15 42 B 


Target Data Type 
图 Auto © Categoric © Numeric © XXXX 


Q input @ ignore Weight Calculator: 


No. Variable Data Type Input i Ignore Weight Comment 

1 Sepal.Length Numeric ®@ | | € e ) Unique: 35 
Sepal.Width Numeric Q9 P * € A P Unique: 23 
Petal.Length Numeric F s ) Unique: 43 
Petal.Width Numeric @ | | | Unique: 22 


Species Categoric © | Unique: 3 


b) 导入 xlsx 文件 


图 11-11 (H4) 


通过 Log 查 看 记录 可 以 发 现 ， 导 入 xls 和 xlsx 文 件 都 是 使 用 xlsx 包 中 的 read.xlsx 函 数 。 


require (xlsx, quietly-TRUE) 
crs$dataset <- read.xlsx("C:/Users/Think/Documents/iris.xls", sheetIndex-1) 
crs$dataset <- read.xlsx("C:/Users/Think/Documents/iris.xls", sheetIndex-1) 


备注 : xlsx 包 依赖 于 Java 包 ， 需 要 在 本 地 安装 好 JRE 环 境 才 能 安装 Java 和 xlsx 包 。 
11.3.2 导入 ARFF 数 据 
ARFF (The Attribute-Relation File Format) 文件 是 Weka 默 认 的 储存 数据 集 文件 ， 主 要 由 两 部 分 组 成 : 文件 头 和 数据 。 
下 面 以 rattle 包 自 带 的 数据 集 weather.arff 为 例 进行 辅助 说 明 。 文 件 头 包括 relation 说 明和 属性 说 明 。 
(relation weather Gattribute Date date "yyyy-MM-dd" @attribute MinTemp numeric @attribute RainTomorrow ('No','Yes'] 
其 中 ， 属 性 部 分 声明 属性 名 称 和 类 别 (如 果 为 枚 举 型 则 说 明 预 设 数据 值 ) 。 
数据 部 分 由 @data 引 导 。 主 要 处 理 的 数据 类 型 有 枚 举 型 (nominal) 、 数 值 型 (integer real) 、 文 本 型 (string) 、 日 期 型 (date) 。 


Qdata 
'2007-11-01','Canberra',8,24.3,0,3.4,6.3, 'NW' , 30, ' SW' , 'NW',6,20,68,29, 1019.7, 1015,7,7,14.4,23.6, 'No',3.6, ' Yes' 
'2007-11-02','Canberra',14,26.9,3.6,4.4,9.7, 'ENE', 39, 'E' , 'W', 4,17,80,36, 1012.4, 1008. 4,5,3,17.5,25.7,'Yes',3.6, ' Yes' 


ARFF 格 式 文 件 的 特点 : 各 个 记录 相互 独立 ， 没 有 顺序 要 求 ， 同 时 各 个 记录 间 不 存在 关系 。 


通过 Data 标 签 下 的 Source 来 源 选择 ARFF 格 式 将 ARFF 数 据 导 入 Rattle 中 ， 如 图 11-12 所 示 。 


Qg R Data Miner - [Rattle] 


图 11-12 “导入 AREFF 格 式 数据 


查看 Log 记 录 ， 发 现 是 通过 foreign 包 的 read.arff 函 数 进 行 数据 导入 的 。 


# The 'foreign' package provides the 'read.arff' function. 
require (foreign, quietly-TRUE) 
# Load an ARFF file. 
crs$dataset <- read.arff 


一 


"file:///C:/Program Files/R/R-3.1.2/library/rattle/arff/weather.arff") 


11.33 ”导入 ODBC 数 据 
很 多 数据 储存 在 数据 库 和 数据 仓库 中 。 开 放 数 据 库 连接 (ODBC) 标准 已 经 发 展 为 从 数据 库 中 访问 数据 的 常用 方法 ， 该 技术 基于 结构 化 查询 语言 (SAL) 用 于 查询 关系 数据 库 。 
在 这 里 我 们 讨论 如 何 直接 从 数据 库 中 访问 数据 。Rattle 通 过 ODBC 选 项 能 获取 任意 一 种 拥有 ODBC 驱 动 的 数据 库 ， 其 实 几 乎 就 是 市 面 上 的 所 有 数据 库 ， 如 图 11-13 所 示 。 
Qg R Data Miner - [Rattle 


Project Tools Settings Help 


DO G 日 e 4 
新 建 ”打开 ”保存 Report Export 停止 ”退出 


© R Dataset © RData File © Library © Corpus © Script 


DSN: | Table: |No tables found. | -| Row Limit: |0 Él] ig] Believe Num Rows 


Partition (70/15/15 | Seed: 42 H [View] 


图 11-13 ”通过 ODBC 连 据 库 数 据 导 入 数据 


假设 我 们 已 经 在 Windows 下 安装 了 MySQL， 并 通过 ODBC 数 据 源 管理 器 配置 好 MySQL 的 ODBC 驱 动 ， 如 图 11-14 所 示 。 


MySQL Connector/ODBC Data Source Configuration 


N 


Mysa 
Connector/ODBC 


Connection Parameters 


Data Source Name;  !d5 user action 


Description: database 


Test Result 
TCP/IP Server: 


(^? Named Pipe: 


User: 


Password: 


Database: 


图 11-14 通过 ODBC 数 据 源 管 理 器 安装 ODBC 了 驱动 
在 R 的 控制 台 用 RODBC 包 的 odbcConnect () 函数 进行 数据 库 连 接 : 


> library (RODBC) 

> odbcConnect("ids user action","Daniel.xie","xie8iedlan") 

RODBC Connection 1 i 

Details: 
case-tolower 

DSN-ids user action 

UID-Daniel.xie 

PWD-****** 


接 下 来 ， 我 们 在 Rattle 的 DSN 中 输入 连接 的 数据 库 名 ， 就 可 以 在 Table 显 示 ids_user_action 库 中 所 有 的 数据 表 ， 如 图 11-15 所 示 。 


Dat | Explore | Test | Transform | Cluster | Associate | Mode | Evaluate | Log 


Source: © Spreadsheet © ARFF @ ODBC © RDataset © RData File © Library © Corpus © Script 
DSN Table: | Row Limit: |0 5 Believe Num Rows 

ad rpt adplat act al 
Partition |70/15/15 | 


ad rpt adplat trans 


ad rpt adplat trans price | Target Data Type 
| 图 Auto © Categoric © Numeric © XXXX 


© Input S) Ignore W 


Welcome to Rattle ! ad rpt cps stat 


ad rpt adplat trans tmp 


Rattle is a free gra  rpt trans user or Data Mininga developed using R. R is a free software 


图 11-15 ”在 Rattle 中 查看 ids_user action 数 据 库 中 的 数据 表 


如 果 我 们 想 导入 ad_rpt_adplat trans 的 数据 ， 只 需要 选中 此 表 ， 然 后 单 击 “ 执 行 ” 按 钮 即 可 将 该 表 导 入 Rattle 中 ， 如 图 11-16 所 示 。 


eq [D m ume 4 9 € | 


执行 新 建 ”打开 RF Report Export 停止 。 退出 


Datz | Explore | Test | Transform | Cluster | Associate | Mode | Evaluate | Log. 


Source: 


DSN: ; user action| Table: [|ad rpt adplat trans um Row Limit: |0 ie Believe Num Rows 
Partition [70/15/15 | 42 2 


à; 1! Target Data Type 
© nput e gnore Weight Calculator: | | 图 Auto © Categoric © Numeric © XXXX 


No. Variable Data Type Input Risk Ident Ignore — Weight Comment 
dtstatdate Date © © e e © © Unique: 188 
consumer key Categoric 图 e e e © © Unique: 37 
mober Numeric @ © © © © © Unique: 223 
clickuser Numeric @ © e e © © Unique: 1613 Missing: 1126 
transuser Numeric (9 e © © © e Unique: 1196 Missing: 981 


callbackuser Numeric Q9 © © © © e Unique: 638 Missing: 4987 


图 11-16 ”导入 ad_rpt_adplat_trans 表 的 数据 


11.3.4 R Dataset 一 一 导入 其 他 数据 源 


前 面 已 经 介绍 了 如 何 导 入 文本 文件 、ARFF 文 件 、 数 据 库 的 数据 ， 然 而 R 支 持 从 更 多 不 同 的 数据 源 导入 数据 。 例 如 ， 可 以 从 蔓 贴 板 、 其 他 专业 的 数据 挖掘 工具 (SPSS, SAS) 等 进行 数据 导入 ， 


给 大 家 演示 如 何 将 R 当 前 环境 中 的 数据 对 象 导 入 Rattle 中 。 
1. 从 剪贴 板 读 取 数据 
本 地 有 一 份 关 于 用 户 活跃 情况 的 数据 ， 如 图 11-17 所 示 。 


通过 read.table ("clipboard"，header=T) 命令 将 剪贴 板 的 数据 导入 R， 并 保存 在 数据 对 象 actionuser 中 : 


> actionuser <- read.table("clipboard",header - T) 
» dim(actionuser) 


[1] 19 7 

> head(actionuser)Jf Pid 是 否 付费 ”总 登录 天 数 SERKA ”日 均 登 录 次 数 工作 日 登录 次 数 ”周末 登录 次 数 
1 14581052 0 1 1 1.0 1 0 

2 30956813 0 2 5 VN 5 0 

3 31212114 0 2 3 145 3 0 

4 31557610 0 1 2 2.0 0 2 

5 40446697 0 1 3 3.0 0 3 

6 44095085 0 2 5 258 5 0 


接 下 来 要 


接 下 来 ， 就 能 在 R Dataset 的 Data Name 中 选择 数据 对 象 actionuser， 如 图 11-18 所 示 。 


单 击 “ 执 行 ” 按 钮 后 就 能 将 actionuser 数 据 导入 Rattle 中 ， 可 通过 View 按 钮 查看 数据 。 


页 面 布局 


和 


图 11-17 选中 数据 并 复制 到 剪贴 板 


|2 | 14581052 0 1 1 1 1 0 
3 | 30956813 0 2 5 2.5 5 0 
|4 j| 3112114 0 2 3 1.5 3 0 
5 ! 37557610 0 1 2 2 0 2: 
| 6 } 40446697 0 1 3 3 0 3 
| T | 44095085 0 2 5 25 5 0 
8 | 45349067 1 2 2 1 2 0 
.9 $ 50386599 0 1 1 1 1 oj 
10 ' 52176150 0 1 3 3 3 0: 
11 | 53375068 0 1 2 2 2 o; 
12| 53376666 1 8 40 5 28 12 
13 60862676 0 1 1 1 1 0 
14 | 67667471 0 4 15 3.75 11 4 
69759354 0 1 2 2 0 2 
16 71998699 0 1 2 2 2 0 
76493565 0 1 1 1 1 0 
18! 76505180 0 8 41 5.125 31 10 
19 81649003 0 1 2 2 0 2 
20 | 81842163 0 1 2 2 2 0; 


4& R Data Miner - [Rattle] | 

Project Tools Settings Help 

208 | O z | L 4l e 4 | 
人 执行 新 建 ”打开 保存 | Report Export — 停止 BH 


Date | Explore | Test | Transform | Custer | Associate | Mode | Evaluate | Log 


Source: © Spreadsheet © ARFF © ODBC 4 RDataset © RData File © Library ( Corpus © Script 


Q Rattle XXXX 3.4.1 —7n 


Data Name: 


Partitic 


Target Data Type 
图 Auto © Categoric © Numeric © XXXX 


Q Input E Ignore Weight Calculator: 


图 11-18 ”在 Data Name 中 选择 actionuset 


2. 加 载 SPSS 数 据 集 


利用 foreign 扩 展 包 的 read.spss 函 数 可 以 将 SPss 数 据 集 读 入 R 中 。 假 如 桌面 有 一 份 关 于 居民 储蓄 调查 的 数据 ， 我 们 先 将 数据 读 入 R 中 : 


library (foreign) 
mydataset <- read. spss ("C:\\WUsers\\Think\\Desktop\ VE Kit & I&A. sav") 
mydataset <- as.data.frame (mydataset) 


然后 在 R Dataset 的 Data Name 中 选择 数据 对 象 mydataset， 将 数据 读 入 Rattle 中 ， 如 图 11-19 所 示 。 
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Target Data Type 
| Q) Auto © Categoric © Numeric © XXXX | 
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Unique: 11 


图 11-19 ”将 居民 储 蕾 调查 数据 导入 Rattle 中 


单 击 View 按 钮 查看 导入 的 居民 储蓄 调查 数据 ， 如 图 11-20 所 示 。 


4$ Rattle Dataset - dfedi ersion 0.6.: 
Al A2 A4 
买 东 西 基本 不 变 减少 ”300~800 元 
TE 基本 不 变 基本 不 变 300-8005 
买 东西 基本 不 变 Sn 800~1500 元 
买 东西 增加 塔 加 ”300~800 元 
买 东西 增加 基本 不 这 800~1500 元 
买 东西 其 本 不 训 基本 不 变 。300~800 元 
存 镜 基本 不 变 基本 不 变 ”300 元 以 下 
买 东西 基本 不 变 基本 不 变 800~1500 元 
Sin 300~8007 


0 0o «4 Oo v h wo jE} 


买 东西 增加 
买 东西 基本 不 变 基本 不 变 300~800 元  — 500 


买 东西 基本 不 记 基本 不 地 ”300~800 元 10000 
买 东西 。 ”减少 基本 不 变 。 300~800 元 。 ”500 三 年 以 下 定期 — 买 高 档 消费 品 
买 东西 。 ”增加 基本 不 变 800-15007c 10000 活期 结婚 用 
买 东西 基本 不 变 基本 不 变 。 300 元 以 下 ”18000 三 年 以 下 定期 FREASA 

增加 塔 加 300~8007 200 活 鞭 工 资 帐户 


正 军 生活 零用 。 支付 孩子 教育 费 


SN 和 


A73 AS A9 A10 A11 A12 A13 
防止 意外 事故 偏 高 下 降 SORTED 购买 其 他 证 券 日 常生 活用 钱 城镇 户口 
防止 意外 事故 (ex 稳定 购买 其 他 证 券 购买 其 他 和 证券 BRSERHE 城镇 户口 
防止 意外 事故 (em 稳定 购买 其 他 证 券 MEZEA 生意 周转 全 城镇 户口 
MESEN qum fur 购买 其 他 证 券 购买 其 他 证 券 SAUEN HAAD 

EOLILLLE IE 稳定 购买 其 他 汪 券 购买 其 他 证 券 日 常生 活用 钱 城镇 户口 
结婚 用 (um 稳定 SZEW MERSE 购买 国库 券 城镇 户口 
防止 意外 事故 偏 高 稳定 购买 其 他 证 券 。 ”继续 存 钱 日 常生 活用 钱 城镇 户口 
买房 或 建 房 正常 稳定 HXH RFI RRASA 城镇 户口 
mes FER 稳定 购买 其 他 证 券 MEZEA 岁 制 购买 中 意 商 品 城镇 户口 
养老 会 RA GBE ERFA 取 钱 买 东西 生意 周转 会 城镇 户口 
防止 总 外 地 故 (uS 稳定 购买 其 他 证 券 购买 其 他 证 券 购买 国 磊 券 城镇 户口 
防止 意外 事故 (em 稳定 购买 其 他 汪 券 。 ”继续 存 钱 购买 国库 券 城镇 户口 
防止 意外 事故 正常 稳定 购买 其 他 证 券 购买 其 他 证 券 日 第 生活 用 钱 amO 
买房 或 建 房 (wu 稳定 SORDED MEXA 日 党 生活 用 钱 城镇 户口 
防止 意外 事故 (ex 稳定 ERNOD Mam REEMS 城镇 户口 


文教 卫生 35~50 岁 E 


退役 和 人员 505E 
工商 运 专业 户 20~35 岁 
国家 机 关 20-352 
公交 建筑 业 20~35 岁 
经 营 性 公司 20~35 岁 
商业 服务 业 20 岁 以 下 
商业 服务 业 20~35 岁 
文教 卫生 20~35 岁 
工商 运 专业 户 35-502 
经营 性 公司 20~35 岁 
国家 机 关 20~35 岁 
商业 服务 业 20~35 岁 
一 般 农户 35~50 岁 
公交 建筑 业 20~35 岁 


上 


^ 


- 


E1120 查看 导入 的 居民 储蓄 调查 数据 


11.3.5 “导入 RData File 数 据 集 


利用 RData File 选 项 可 以 将 二 进 制 的 数据 (通常 是 RData File 的 扩展 ) 直接 读 入 Rattle 中 ， 这 些 文件 通常 包含 多 个 数据 集 。 


假如 桌面 有 一 个 user.RData 数 据 ， 里 面包 括 不 同 平台 的 用 户 信息 ， 我 们 先 在 Filename 中 选择 user.RData， 然 后 就 可 以 选择 里 面包 含 的 数据 表 ， 如 图 11-21 所 示 。 


© Spreadsheet © ARFF © ODBC © RDataset @ RData File © Library © Corpus © Script 


Rattle is a free graphical user int free software 
environment for statistical compucti]. ated 
environments for data mining, stati 


See the Help menu for extensive sup , tle and R is 
available from Amazon. The Togaware 
documentation and is available from 


图 11-21 ”从 RData File 选 择 数据 表 


如 选中 android 表 ， 查 看 安 卓 用 户 信息 ， 单 击 View 按 钮 查看 导入 的 数据 ， 如 图 11-22 所 示 。 


是 否 粉 毕 是 否 封号 .1. 最 后 登录 ip 最 后 登录 地 | 最 后 登录 站 ) 
010.245.170 Thailand 57 


0 

1 0 100.35.115 Thailand 57 
0 0730.166.90 Thailand 146 
0 10 .53.116.94 Thailand 146 
1 0.53.232.82 Thailand 57 
1 036.171.113 Thailand 57 
0 0706.27.151 Thailand 57 
1 015.167.144 Thailand 146 
0 0:71.222.73 Thailand 57 
0 

1 

1 

1 

1 

1 

i] 

0 


D 5 4,3 « 
me HAF — 8 Report Export 


Source: © Spreadsheet © ARFF © ODBC © R Dataset ® RData File © Library © Corg 


V. pariton « g 


i i ] Target Data Type 
© nput tà gnore Weight Calculator: | 图 Auto © Categoric © Nu 


0)5.248.140 Thailand 
0.10.228.13 Thailand 
0.46.170.81 Thailand 
0.53.16.139 Thailand 
0 23.205.2.8 Thailand 
0.97.127.50 Thailand 
019.215.100 Thailand 
033.179.160 Thailand 
01.740.213 Thailand 


1 n (0 11 NA Thailand 


: 


INo. Variable Data Type Input 
1 用 户 id Ident 

性 别 .0 和 男 1 女 2 保密 . Numeric 

好 友 数 


1 
1 
0 
0 
0 
1 
1 
0 
0 
d 
0 
0 
0 
1 
0 
0 
0 


- 


0000000000050 
0000005505555] 
00000055005 
00000005000 


flao co - Oo o ha o Ww 


E1122 ”导入 并 查看 安 草 平台 用 户 信息 


11.3.6 ”导入 Library 数 据 


几乎 每 一 个 R 包 都 提供 了 一 些 示例 数据 集 ， 用 于 进行 功能 演示 。 如 rattle 包 自 带 了 weather、dvdtrans、audit 数 据 集 ， 我 们 通过 Library 选 项 可 以 很 轻松 地 把 这 些 数据 集 导 入 Rattle， 如 图 11-23 所 示 。 


RR Data Miner - [Rattle (acme) 


Project Tools Settings Help D Rattle VOX 3.4.1 togaware.corr. 


© Spreadsheet © ARFF © ODBC © R Dataset © RData File © Corpus © Script 


| Data Name: |acme:boot: Monthly Excess Returns m 


.gleissberg.table (gleissberg.table):pastecs:Table of probabilities ^. 
.HedgeFund1 (HedgeFund):fBasics:fBsiscs Data Sets 

HedgeFund2 (HedgeFund):fBasics:fBsiscs Data Sets 
aami3a:dtw:ANSI/AAMI EC13 Test Waveforms, 3a and 3b 
aami3b:dtw:ANSI/AAMI EC13 Test Waveforms, 3a and 3b 

abbey: MASS:Determinations of Nickel Content 

abc:HH:Datasets for Statistical Analysis and Data Display, Heiber 


No. Variabl 
1 month 


2 marke 


ability.cov:datasets:Ability and Intelligence Tests 

ability:psych:16 ability items scored as correct or incorrect. 
abrasion:HH:Datasets for Statistical Analysis and Data Display, H 
absorp (tecator):caret:Fat, Water and Protein Content of Meat Se 
acacia:HH:Datasets for Statistical Analysis and Data Display, Heit 
accdeaths:MASS:Accidental Deaths in the US 1973-1978 
acidity:mclust:Acidity data 


图 11-23 ”可 选择 已 安装 包 的 数据 


如 我 们 需 导入 boot 扩 展 包 中 的 acme 数 据 集 ， 选 中 该 数据 集 后 单 击 “ 执 行 ” 按 钮 ， 结 果 如 图 11-24 所 示 。 


eB E 


Pei 
mE 打开 保存 | Report Export 


Source: (9 Spreadsheet ®© ARFF ®© ODBC © R Dataset ®© RData File @ Library ®© Corpus © Script 


Data Name: |acme:boot: Monthly Excess Returns Ia 
Partition [70/15/15 | |42 


S [ves (Eai 


ype 
D Categoric © Numeric © XXXX 


@ input @ onore Weight Calculator: | 


| kr Data Type- 


€ Auto © Categoric © Numeric © OX 


No. Variable Data Type Input OX Risk Ident Ignore Weight t 
1 month Categoric & © © © © © 
2 market Numeric $ © © © 


3 acme Numeric 图 © © © © 


Comment 

Unique: 60 
Unique: 60 
Unique: 60 


图 11-24 导入 boot 包 中 的 acme 数 据 集 


11.4 数据 探索 


选项 Explore 主 要 用 于 数据 探索 ， 其 界面 如 图 11-25 所 示 。 


Comment 

Unique: 60 
Unique: 60 
Unique: 60 


NENNT 


RR Rattle Dataset - dfedit version 0.6.1 


month market 


Aere 


1/86 
2/86 
3/86 
4/86 
5/86 
6/86 
7/86 
8/86 
9/86 

10/86 

11/86 

12/86 
1/87 
2/87 
3/87 


vo 0o - O voc A w Nip: 


m 
o 


-0.061134 
0.00822 
-0.007381 
-0.067561 
-0.006238 
-0.044251 
-0.11207 
0.030226 
-0.129556 
0.001319 
-0.033679 
-0.072795 
0.073396 
-0.011618 
-0.026852 


acme 
0.03016 
-0.165457 
0.080137 
-0.109917 
-0.114853 
-0.099254 
-0.226846 
0.073445 
-0.143064 
0.034776 
-0.063375 
-0.058735 
0.050214 
0.111165 
-0.127492 


Q& R Data Miner - [Rattle (acme)] " 
Project Tool Settings Help @ Rattle 000 3.4.1 togaware.corr. 


; oBsujJ0 4|9 «€; 
s 新 建 ”打开 保存 | Report Export | 停止 退出 


Type: 


图 11-25 ”Rattle 的 Explore 界 面 


如 图 11-24 所 示 ，Rattle 中 的 Explore 界 面 主要 根据 数据 集 输出 数据 集 以 下 信息 : 数据 总 体 概况 (Summary) 、 数 据 分 布 情况 (Distributions) 、 数 据 的 相关 系数 矩阵 (Correlation) 、 数 据 集 的 主 成 
分 分 析 (Principal Components) 以 及 各 变量 之 间 的 交互 作用 (Interactive) 。 


11.4.1 ”数据 总 体 概况 


我 们 从 数据 总 体 概况 (Summary) 开始 介绍 数据 探索 。 虽 然 一 图 胜 干 言 ， 但 是 数据 总 体 概况 在 我 们 理解 数据 时 仍 扮演 着 重要 的 角色 ，。 

1. 基 本 概要 

利用 base 包 中 的 summarry () 函数 来 获取 描述 统计 量 。summary () 函数 对 数值 型 变量 提供 了 最 小 值 、 第 一 四 分 位 数 、 中 位 数 、 均 值 、 第 三 四 分 位 数 和 最 大 值 ， 对 因子 型 或 逻辑 型 变量 提供 了 频数 统 
Ws 

我 们 利用 rattle 包 中 自 带 的 weather 数 据 集 进行 演示 ， 结 果 如 图 11-26 所 示 。 


由 结果 可 知 ，Temp9am (在 9 点 温度 ) 的 最 小 值 是 0.10， 第 一 四 分 位 数 是 7.20， 中 位 数 是 12.45， 均 值 是 12.16， 第 三 四 分 位 数 是 16.93， 最 大 值 是 24.70; RainTomorrow (明天 是 否 下 雨 ) 有 215 天 是 
青天 (No) ，41 天 是 雨天 (Yes) 。 


2 .更 详细 的 概要 
利用 Hmisc 包 中 的 describe () 函数 返回 变量 和 观测 的 数量 、 缺 失 值 和 唯一 值 的 数目 、 平 均值 、 分 位 数 ， 以 及 5 个 最 大 的 值 和 5 个 最 小 的 值 ， 如 图 11-27 所 示 。 
由 图 11-27 可 知 ， 训 | 练 数据 集 共有 256 条 记录 、22 个 变量 。 其 中 MinTemp (最 小 温度 ) 共有 256 条 记录 ， 没 有 缺失 值 ， 唯 一 值 数目 是 154， 均 值 是 7.011， 接 下 来 是 各 分 位 数值 以 及 5 个 最 小 值 和 最 大 值 
如 果 是 因子 型 变量 ， 则 返回 的 是 观测 的 数目 、 缺 失 值 和 因子 数 ， 且 计算 各 因子 的 数目 及 占 比 。 如 RainTomorrow 变 量 的 结果 如 下 所 示 : 
Data Miner - [Rattle (weather.csv)] 
| Project Tools Settings Help 


e LEM [s 
:执行 新 建 ”打开 保存 | Repot Export | 停止 退出 


Explore | Test | Transform | Custer | Associate | Mode | Evaluate | Log. 


Type: Q& Summary © Distributions © Correlation ( Principal Components © Interactive 


Summary Describe [^] Basics [^] Kurtosis [^] Skewness |^] Show Missing |^] Cross Tab 


1st Qu.: 6.00 1st Qu.:11.00 1st Qu.:64.00 1st Qu.:32.75 
Median : 7.00 Median :17.00 Median : .00 Median :43.00 
Mean : 9.81 Mean -人 Mean - . 62 Mean :43.97 
3rd Qu.:13.00 3rd Qu.:24.00 3rd Qu.:80. 3rd Qu.:53.00 
Max. :41.00 Max. :50.00 s - ^ Max. :94.00 
NA's :4 

Pressure9am Pressure3pm Cloud3pm 
Min. : 996. Min. : 996. in. :0. Min. :0.000 
Ast Qu.:1016. 1st Qu.:1013. eade 1st Qu.:1.000 
Median :1020. Median :1017. j 23. Median :3.000 
Mean :1020. Mean :1017. IM Mean :3.828 
3rd Qu.:1024. 3rd Qu.:1021. 527. 3rd Qu.:7.000 
Max. :1035. Max. :1033. > :8. Max. :8.000 


Temp9am Temp3pm RainToday *? RainTomorrow 
Min. : 0. Min. : 7.10 No :212 in. - : No :215 
13t Qu.: 7. 1st Qu.:13.80 Yes: 44 y- . Yes: 41 
Median :12. Median :18.15 
Mean -p i e Mean :19.01 
3rd Qu.: 3rd Qu.:23.75 
Max. :24。 Max. 234.50 


图 11-26 4] M] base €L F hj summary $ Zo] 245 3t 41 48 EE VT 2 JT 


i Data Miner - [Rattle (weather.csv)] 
Project Tools Settings Help Q Rattle XXXX 3.4.1 togaware.corr. 


JAEN m. SS E UNS 
执行 


新 建 ”打开 保存 | Report Export 停止 BH 


Below is a description of the dataset. 
The data is limited to the training dataset. 


crsS$dataset[crs$sample, c(crsSinput, crs$risk, crsS$target)] 
22 Variables Observations 
n missing unique .05 .10 29 . 50 A i . 90 .95 
0 154 7.011 -2.525 -1.150 1.925 7.100 12.400 15.350 16.500 


-5.3 -3.7 -3.5 -3.4 -3.3, highest: 17.9 18.0 18.2 19.9 20.9 


图 11-27 4#] M Hmisc & F fj describe) Akar Zt 4E ATIA R ZU 2) T 


RainTomorrow 

n missing unique 

256 0 2 

No (215, 84$), Yes (41, 165%) 


RainTomorrow 变 量 共 有 256 条 记录 ， 没 有 缺失 值 ， 有 两 个 因子 ， 分 别 是 No 和 Yes， 其 中 No 的 数目 是 215， 占 总 记录 数 的 84%，Yes 的 数目 是 41， 占 总 记录 数 的 16%。 


3. 数 值 型 变量 更 详细 概要 


fBasics 包 中 的 basicsstats () 国 数 对 数值 型 变量 提供 了 更 详细 的 描述 性 统计 ， 包 括 以 下 统计 指标 : 记录 数 、 缺 失 值 个 数 、 最 小 值 、 最 大 值 、 第 一 四 分 位 数 、 第 三 四 分 位 数 、 均 值 、 中 位 数 、 求 和 、 均 值 


标准 误 、 均 值 95% 置 信 区 间 的 上 下 限 、 方 差 、 偏 度 和 峰 度 。MinTemp 变 量 的 统计 结果 如 图 11-28 所 示 。 


| Data Miner - [Rattle (weather.csv) o- 


Project Tools Settings — Q Rattle XXXX 3.4.1 togaware.corr. 
9 | [() S a | O e 4 | 
执行 me ”打开 ci EUN fub 退出 


[Dats| Explore e Test-Tondorn Qon /esocatn, Moda | vakata [on 


Type: 


Summary Describ4 [V] Basics |F] Kurtosis F] Skewness [F] Show Missing [^] Cross Tab 


Basic statistics for each numeric variable of the dataset. 


SMinTemp 

^ C» C! 
nobs 256.000000 
NAs 0.000000 
Minimum -5.300000 
Maximum 20.900000 
1. Quartile 1.925000 
3. Quartile 12.400000 
Mean .011328 
Median .100000 
Sum .900000 
SE Mean .386658 
LCL Mean .249878 
UCL Mean 772778 
Variance 38.273165 
'Stdev 6.186531 
Skewness 0.053472 
Kurtosis -1.131089 


图 11-28 ”利用 fBasics 包 中 的 basicStats 函 数 对 数值 型 变量 进行 详细 描述 统计 


除了 以 上 3 种 常用 的 数据 概要 统计 方法 外 ， 还 有 峰 度 (Kurtosis) 、 偏 度 (Skewness) 、 显 示 缺 失 值 (Show Missing) 和 交叉 表 (Cross Tab) ， 如 图 11-29 所 示 ， 请 读者 自行 研究 。 


Project Toob Settings Heb — | (00) Rattle 20X 3.4.1 togaware.con. 


DB SIL GIREE EE 


Report Export 


停止 退出 


— Explore | Test| Transform | Custer | Associate | Mode | Evaluate | Log. 


图 Summary © Distributions © Correlation © Principal Components © Interactive 


[7] Summary |^] Describe [F] Basic F] Kurtosis [^] Skewness [^] Show Missing [^] Cross Tab 


图 11-29 ”数据 概要 的 其 他 统计 方法 
11.4.2 ”数据 分 布 探索 


利用 Rattle 的 Distributions 选 项 ， 可 以 以 可 视 化 的 方式 给 出 各 个 变量 的 分 布 特征 ， 如 图 11-30 所 示 。 可 以 选择 相应 的 图 形 选 项 ， 单 击 “ 执 行 ” 按 钮 绘图 。 


Test|Tansomr|Custer|Asscate|Mode|Evauate|tog| | 
Type: © Summary © Correlation © Principal Components © Interactive 

Numeric: 清除 (C) Plots per Page: 4 B Annotate 

Benfords: Bars Starting Digit: 1 B Number of Digits: 1 - © abs © +ve © -ve 
No. Variable Box Plot Histogram Cumulative Benford Min; Median/Mean; Max 
MinTemp -5.30; 7.45/7.27; 20.90 

7.60; 19.65/20.55; 35.80 

0.00; 0.00/1.43; 39.80 

0.20; 4.20/4.52: 13.80 

0.00; 8.60/7.91; 13.60 

13.00; 39.00/39.84; 98.00 


MaxTemp 
Rainfall 
Evaporation 
Sunshine 
WindGustSpeed 


j Ey F9 F9 DS D 
j Ey E9 ES Ew [3 
j Ey F9 F9 ES FN) 
j Ey E9 E9 ES DN 


" —————pÓ : 
Categoric: 清除 (CO) 


No. Variable Bar Plot DotPlot Mosaic Levels 


8 WindGustDir 
10 WindDir9am 
11 WindDir3pm 
22 RainToday 
24 RainTomorrow 


16 


回回 回回 回 


图 11-30 ”Distributions 选 项 
对 于 数值 型 变量 ， 可 以 画 出 箱 线 图 、 直 方 图 、 累 积分 布 图 和 Benford 图 ; 对 于 类 别 变量 ， 可 以 画 3 个 图 : 条 形 图 、 点 图 和 马赛 克 图 。 
1. 数 值 型 变量 可 视 化 
Rattle 绘 制 的 箱 线 图 比 R 基 础 包 中 画 出 的 普通 箱 线 图 多 了 一 个 星 号 表示 数据 均值 ， 通 过 中 位 数 和 均值 的 对 比 ， 可 以 得 知 数据 的 偏 态 情况 。 
Rattle 绘 制 的 直方 图 包含 3 部 分 : 首先 是 通过 x 轴 将 值 域 分 割 为 一 定数 量 的 组 ， 在 y 轴 上 显示 相应 值 的 频数 ， 展 现 连续 型 变量 分 布 的 直方 图 ， 然 后 在 直方 图 上 二 加 核 密度 图 和 轴 须 图 。 
累积 分 布 图 是 观察 数据 分 布 情况 的 另 一 种 较 常 用 的 图 形 类 型 。 该 图 形 中 每 个 点 G6 y) 的 含义 为 : 共有 y (百分数 ) 的 数据 小 于 或 等 于 该 x 值 ， 因 此 ， 数 据 中 x 最 大 值 所 对 应 的 y 值 为 1， 即 1009%。 
benford 图 来 自 Benford 法 则 ， 给 出 数字 首位 数 1~9 在 这 些 数 字 中 的 经 验 分 布 (近似 大 律 ) 。 


利用 weather 数 据 集 ， 以 RainTomorrow 为 分 组 变量 ， 画 出 MinTemp 变 量 的 箱 线 图 、 直 方 图 、 累 积分 布 图 和 Benford 图 ， 如 图 11-31 所 示 。 


Qt Rattle: Plot 2 EI x 


Distribution of MinTemp (sample) Distribution of MinTemp (sample) 
by RainTomorrow by RainTomorrow 


Frequency 


All No 10 15 20 25 


RainTomorrow MinTemp 
Rattle 2016-[:]E3]-01 17:51:45 Think Rattle 2016-[: 3] 3]-01 17:51:45 Think 


Distribution of MinTemp (sample) Benford's Law: MinTemp (sample) 
by RainTomorrow by RainTomorrow 


Benford's 
All (256) 
No (215) 
Yes (41) 


Proportions x 
Probability 


MinTemp Distribution of the First Digit 
Rattle 2016-E3]E$]-01 17:51:46 Think Rattle 2016-[:3][3]-01 17:51:47 Think 


图 11-31 Rattle 对 数值 型 变量 数据 可 视 化 
箱 线 图 (左上 ) 的 中 间 横 线 表示 中 位 数 ，* 表 示 均 值 。 从 图 11-31 可 以 看 出 ， 当 Rain-Tomorrow 为 No 时 ,均值 大 于 中 位 数 ， 说 明 数 据 处 于 正 偏 态 分 布 ( 右 偏 分 布 ) ; 当 Rain-Tomorrow 为 Yes 时 ， 均 值 
小 于 中 位 数 ， 说 明 数 据 处 于 负 偏 态 分 布 ( 左 偏 分 布 ) 。 


直方 图 (右上 ) 的 柱状 图 表示 的 是 将 变量 MinTemp 按 照 置 于 进行 分 组 后 再 以 y 轴 显示 相应 值 的 频数 ，3 条 曲线 表示 变量 MinTemp 按 照 分 组 变量 RainTomorrow 画 出 的 核 密度 图 ， 可 知 当 RainTomorrow 
为 No 时 ， 处 于 右 偏 ; 当 RainTomorrow 为 Yes 时 ， 处 于 左 偏 ， 与 箱 线 图 得 出 的 结论 一 致 。 


在 累积 分 布 图 中 ，RainTomorrow 为 Yes 时 的 曲线 低 于 为 All、No 的 曲线 ， 说 明 为 Yes 时 的 MinTemp 数 据 大 于 整合 和 为 No 时 的 数据 。 


柱状 图 通过 竖立 的 柱子 展示 了 类 别 变量 的 分 布 (频数 ) 。 
点 图 提供 了 一 种 在 简单 水 平 刻 度 上 绘制 大 量 有 标签 值 的 方法 。 


马赛 克 图 是 表现 多 维 列 联 表 数 据 的 一 个 工具 。 它 的 表现 形式 为 与 频数 成 比例 的 矩形 块 ， 整 幅 图 形 看 起 来 就 像 是 若干 块 马赛 克 放 置 在 平面 上 上。 马赛克 图 背后 的 统计 理论 是 对 数 线性 模型 (log-linear 
model) 。Rattle 中 的 马赛 克 图 是 某 个 属性 变量 各 水 平 关于 另 一 个 变量 (一 般 是 目标 变量 ) 的 图 形 。 


利用 weather 数 据 集 ， 以 RainTomorrow 为 目标 变量 ， 画 出 分 类 变量 WindGustDir 的 柱状 图 、 点 图 和 马赛 克 图 ， 如 图 11-32 所 示 。 


Distribution of WindGustDir (sample) by RainTomorrow 


60 

si All 
T 4ü m No 
E 30 EE Yes 
: io kl L L 
"» E EN 

NNW ENE WNW NWN S ESE Ww SSE 55W NNE WSW 
WindGustDir 


Rattle 2016 ZH -01 18:20:43Think 


Distribution of WindGustDir (sample) by RainTomorrow 


“可 
= 
= 
.& 
z 
Frequency 
Rattle 2016 二 月 -01 18:20:43Think 
Mosaic of WindGustDir (sample) by RamTomorrow 
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图 11-32 ”Rattle 对 分 类 变量 的 数据 可 视 化 
从 以 上 3 种 图 形 上 可 知 ， 类 别 变 量 WindGustDir 的 各 方位 的 晴天 的 频数 均 高 于 雨天 。 
11.4.3 ”相关 性 


利用 Rattle 的 Correlation 选 项 ， 可 计算 数值 变量 间 的 相关 系数 ， 并 对 结果 进行 可 视 化 展示 。 


计算 相关 系数 采用 Pearson、Kendall、Spearman 三 种 方法 ， 默 认 是 Pearson， 如 图 11-33 所 示 。 
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图 11-33 ”相关 系数 的 计算 方式 


对 weather 数 据 集 ， 计 算出 数值 型 变量 的 相关 系数 ， 结 果 如 图 11-34 所 示 。 
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图 11-34 weather 数 值 变量 的 相关 系数 
Pressure9am 与 Pressure3pm 之 间 的 相关 系数 约 为 0.96789， 具 有 强 的 正 相 关 性 。 
Rattle 可 以 对 相关 系数 进行 可 视 化 ， 如 图 11-35 所 示 。 


在 图 11-35 中 ， 红 色 表 示 负 相关 ， 蓝 色 为 正 相 关 。 颜 色 越 浅 ， 相 关系 数 (绝对 值 ) 越 小 。 越 接近 直线 ， 相 关系 数 (绝对 值 ) 越 
有 强 的 正 相 关 性 。 


。 变 量 Pressure9am 与 Pressure3pm 交 叉 的 椭圆 蓝 色 很 深 ,说 明 两 者 具 
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图 11-35 ”相关 系数 可 视 化 
这 个 选项 还 可 以 探索 缺失 值 的 相关 性 。 


数据 集 当 中 常 有 这 样 的 情况 : 一 个 在 某 个 变量 上 有 缺失 值 的 观测 在 别 的 变量 上 也 很 可 能 有 缺失 值 。 选 择 Explore Missing 选 择 并 执行 后 ， 会 输出 相关 系数 矩阵 ， 这 里 的 相关 性 表示 两 个 变量 在 缺失 值 的 数 
量 上 的 联系 ， 如 图 11-36 所 示 。 


选择 Hierarchical 选 项 ， 可 计算 层次 的 相关 性 ， 输 出 一 个 可 视 化 结果 ， 如 图 11-37 所 示 。 


这 个 图 形 就 是 使 用 变量 间 的 相关 性 按照 层次 聚 类 法 (系统 聚 类 法 ) 来 对 变量 进行 分 类 ， 聚 类 的 距离 是 变量 间 的 相关 性 。 从 聚 类 结果 可 知 ， 强 正 相 关 的 变量 Pressure9am 与 Pressure3pm 被 聚 在 一 类 。 
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图 11-36 缺失 值 相关 性 可 视 化 


Variable Correlation Clusters 
weather.csv using Pearson 
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图 11-37 “变量 间 的 相关 性 层次 聚 类 
11.44 ERS 


Principal components 选 项 提供 了 主 成 分 分 析 来 探索 数据 。 
通常 主 成 分 分 析 作 为 一 种 数据 降 维 的 方法 ， 在 数据 探索 当中 可 以 用 来 发 现 数据 集中 用 来 解释 样本 方差 的 重要 变量 。 样 本 的 各 个 主 成 分 就 是 用 来 描述 数据 最 大 方差 的 互 不 相关 的 原始 变量 的 线性 组 合 。 
Rattle 计 算 主 成 分 有 两 种 方法 : 一 种 是 计算 样本 协 方差 矩阵 的 特征 值 和 特征 向 量 (Eigen) ， 另 一 种 方法 是 对 数据 和 矩阵 进行 奇异 值 分 解 (SVD) 。 


作为 结果 ， 在 SVD 方 法 中 ， 给 出 标准 差 、 主 成 分 系数 和 贡献 率 、 昧 计 贡 献 率 。 在 Eigen 方 法 中 ， 只 给 出 标准 差 和 贡献 率 、 累 计 贡 献 率 。 两 种 计算 的 结果 是 有 差异 的 。 同 时 ， 两 种 结果 都 会 画 出 碎 石 图 和 
biplot 图 。 


下 面 是 以 洛杉矶 街区 数据 (LA.Neighborhoods.csv) 为 例 ， 以 SVD 方 法 进行 主 成 分 计算 ， 结 果 如 图 11-38 所 示 。 


图 11-38a 所 示 碎 石 图 用 来 表示 各 个 主 成 分 的 相对 重要 程度 ， 可 以 作为 选择 主 成 分 的 一 种 直观 依据 。 可 以 看 出 ， 第 一 主 成 分 的 贡献 率 较 大 ， 而 其 他 主 成 分 的 贡献 率 都 不 那么 大 ， 一 直到 第 四 主 成 分 时 ， 轩 
积 贡献 率 才 超过 749%。 


图 11-38b 所 示 biplot 图 给 出 了 样本 点 在 第 一 主 成 分 和 第 二 主 成 分 坐标 系 下 的 位 置 ( 即 主 成 分 得 分 ) ， 同 时 表示 了 这 些 样本 点 在 原始 变量 坐标 系 中 的 相对 位 置 ， 图 中 红色 箭头 表示 原始 变量 坐标 系 。 原 始 
变量 以 红色 标 出 ， 黑 色 为 样本 点 。 
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a) RET B b) biplot 图 
图 11-38 主 成 分 的 碎 石 图 和 biplot 图 
11.45 ”交互 图 
R 语 言 可 以 用 latticist 和 GGobi 两 种 方法 ， 以 交互 的 方式 探索 数据 。 其 中 latticist 依 赖 R 的 lattice 作 图 系统 ， 而 GGobi 依 赖 同名 的 软件 。 需 要 安装 GGobi 软 件 ， 以 及 相应 的 rggobi 包 ，。 
latticist 包 可 通过 栅栏 图 方式 探索 数据 集 ，CRAN 上 没有 latticist 包 ， 不 过 可 以 在 https://cran.r-project.org/src/contrib/Archive/latticist/ 下 载 历史 版 本 来 进行 本 地 安装 。 


需 对 mtcars 数 据 集 进行 交互 图 操作 ， 执 行 如 下 代码 : 


library (latticist) 

tcarsS$cyl <- factor (mtcarsScyl) 
tcarsSgear <- factor (mtcarsS$gear) 
latticist (mtcars) 


353 


生成 的 界面 如 图 11-39 所 示 。 


用 户 能 通过 下 拉 菜 单 和 按钮 直接 创建 lattice 图 形 。 如 想 将 变量 cyl 作 为 分 组 变量 ， 可 以 在 Groups/Color 下 拉 菜 单 中 选择 cyl， 结 果 如 图 11-40 所 示 。 


如 果 x 轴 选择 数值 变量 ， 则 得 到 的 是 核 密 度 图 ; 如 果 x 轴 选择 分 类 变量 ， 则 得 到 的 是 柱状 图 ， 如 图 11-41 所 示 。 
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图 11-40 选择 cyl 作 为 分 组 变量 
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图 11-41 核 密度 图 和 柱状 图 


如 果 x 轴 选择 分 类 变量 ，y 轴 选择 数值 变量 ， 则 可 以 画 出 箱 线 图 ， 如 图 11-42 所 示 。 
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图 11-42 x 轴 选 cyl、y 轴 选 wt 的 箱 线 图 


除了 可 以 设置 分 组 变量 (Groups/Color) ， 还 可 以 设置 条 件 变量 (Conditioning) ， 如 图 11-43 所 示 。 
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图 11-43 ”以 am 为 条 件 ， 以 geat 为 分 组 时 与 cgl 的 栅栏 图 
GGobi 有 许多 吸引 眼球 的 优点 ， 包 括 交 互 式 散 点 图 、 柱 状 图 、 和 平行 坐标 图 、 时 间 序 列 图 、 散 点 图 矩阵 和 三 维 旋转 的 综合 使 用 。 
对 weather 数 据 集 ， 利 用 交互 选项 的 GGobi 即 可 调 出 GGobi 界 面 ， 如 图 11-44 所 示 。 
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图 11-44 ”Rattle 中 调 出 GGobi 界 面 的 选项 


调 出 的 GGobi 界 面 如 图 11-45 所 示 。 
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EJ 区 | MinTemp ~ 
x| I MaxTemp 
EE Rainfall 
x| v| Evaporation 
x| y| Sunshine 
_Change direction | x| hi WindGustDir 
ERI WindGustSpeed 
ES WindDir9am 
x| v| WindDir3pm 
x| v| WindSpeed9am 
EIE WindSpeed3pm 
x| y| Humidity9am 
x| mi Humidity3pm 
x| | Pressure9Sam 
Ed y| Pressure3pm 
D | 


me weather.csv) 


eather.csv: 256 x 22 (R data fra 


图 11-45 


Rattle 调 出 的 GGobi 界 面 
目前 x 轴 选 择 的 MinTemp，y 轴 选择 的 MaxTemp， 我 们 可 以 选中 Cycle， 查 看 不 同 变量 间 的 散 点 图 分 布 情况 。 
可 以 通过 Display 选 择 不 同 的 图 表 类 型 ， 如 我 们 想 画 平行 图 ， 选 中 New Parallel Coordinates Display 后 ， 会 在 新 窗口 中 输出 平行 图 ， 如 图 11-46 所 示 。 


选中 New Scatterplot Matrix， 则 会 画 出 散 点 图 矩阵， 如 图 11-47 所 示 。 
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weather.csv: 256 x 22 (R data frame weather.csv) | Evaporation 


图 11-47 GGobi& Hh d 5 E] AE E 


11.5 “数据 建 模 


11.5.1 聚 类 分 析 


聚 类 分 析 是 一 种 原理 简单 、 应 用 广泛 的 数据 挖 握 技术 。 针 对 几 个 特定 的 业务 指标 ， 可 以 将 观测 对 象 的 群体 按照 相似 性 和 相 异 性 进行 不 同 群 组 的 划分 。 经 过 划分 后 ， 每 个 群 组 内 部 各 对 象 间 的 相似 度 会 很 
， 而 在 不 同 群 组 之 间 的 对 象 彼此 间 将 具有 很 高 的 相 异 度 。 


an 


聚 类 算法 种 类 繁多 ，Rattle 可 以 实现 最 常用 的 K-Means 聚 类 和 层次 聚 类 (hierachical cluster) 。K-Means 聚 类 的 基本 原理 是 : 首先 ， 随 机 选择 K 个 对 象 ， 并 且 所 选择 的 每 个 对 象 都 代表 一 个 组 的 初始 均 
值 或 初始 组 的 组 中 心 值 ， 对 剩余 的 每 个 对 象 ， 根 据 其 余 各 个 组 初始 均值 的 距离 ， 将 它们 分 配给 最 近 的 (最 相似 ) 小 组 ; 然后 重新 计算 每 个 小 组 新 的 均值 ; 这 个 过 程 不 断 重 复 ， 直 到 所 有 的 对 象 在 K 组 分 布 中 都 
找到 离 自己 最 近 的 组 。 层 次 聚 类 则 是 依次 让 最 相似 的 数据 对 象 两 两 合并 ， 这 样 不 断 地 合并 ， 最 后 形成 了 一 棵 聚 类 树 。 


Rattle 通 过 Cluster 选 项 可 以 建立 K-Means 聚 类 和 层次 聚 类 ， 默 认 是 K-Means 聚 类 ， 如 图 11-48 所 示 。 
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图 11-48 ”创建 区 -Means 聚 类 模型 选项 


将 weather 数 据 集 通过 Data 选 项 导入 Rattle 中 ， 然 后 单 击 “ 执 行 ” 按 钮 建立 K-Means 聚 类 模型 ， 如 图 11-49 所 示 。 
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Data means: 


MinTemp MaxTemp Rainfall Evaporation Sunshine 
0.47502155 0.43694078 0.05338835 0.29881476 0.59431333 
WindGustSpeed WindSpeed9am WindSpeed3pm Humidity9 am Humidity3pm 
0.37421595 0.23947679 0.36112903 0.56304403 0.38097372 
Pressure9am Pressure3pm Cloud9am Cloud3pm Temp9am 
0.59307110 0.55435794 0.46118952 0.48135081 0.49468922 
Temp3pm 
0.43726454 


Cluster centers: 


图 11-49 ”建立 K-Means 聚 类 模型 


模型 结果 先 输出 各 类 别 所 包含 的 样本 数 : 


luster sizes: 
1] "23 27 28 39 26 34 20 21 18 12" 


=A 


接着 输出 训练 数据 集 各 变量 的 均值 : 


Data means : 
MinTemp MaxTemp Rainfall Evaporation Sunshine 
0.47502155 0.43694078 0.05338835 0.29881476 0.59431333 
WindGustSpeed WindSpeed9am WindSpeed3pm Humidity9am Humidity3pm 


0.37421595 0.23947679 0.36112903 0.56304403 0.38097372 

Pressure9am Pressure3pm Cloud9am Cloud3pm Temp9am 

0.59307110 0.55435794 0.46118952 0.48135081 0.49468922 
Temp3pm 
0.43726454 


然后 输出 各 类 别 均 值 : 


Cluster centers: 


MinTemp MaxTemp Rainfall Evaporation Sunshine WindGustSpeed 
1 0.3670760 0.1886703 0.0704415234 0.23978920 0.6400256 0.5929952 
2 0.7233531 0.8392809 0.0238300316 0.54489338 0.84885062 0.377056 
3 0.6020992 0.5908498 0.0337763012 20.36958874 0.6326155 0.4042659 
4 0.2250930 0.2765300 0.0121248261 0.15773116 0.6975867 0.2631766 
5 0.7288608 0.4402021 0.1753130590 0.39685315 0.1781674 0.4220085 
6  0.3718006 0.2678188 0.0177838577 20.15106952 0.3784602 0.2614379 
7 0.1362595 0.1414234 0.0337209302 0.08409091 0.4257353 0.2986111 
8 0.6581243 0.6039277 0.1675895164 0.43795094 0.6803221 0.4312169 
9 0.4796438 0.5636659 0.0004306632 0.28030303 0.8010621 0.2993827 
10 0.6186387 0.6520681 0.0161498708 0.50000000 0.8425245 0.5937500 


最 后 给 出 各 类 别 的 组 内 平方 和 : 


Within cluster sum of squares: 
[1] 7.639349 6.021378 10.350511 7.617504 11.520617 10.775379 6.030238 
[8] 8.683444 2.625241 2.778257 


单 击 Plots 中 的 Data 按 钮 ， 会 输出 前 5 个 数值 变量 的 散 点 图 矩阵 ， 用 不 同 颜色 区 分 不 同类 别 的 样本 ， 如 图 11-50 所 示 。 


单 击 Plots 中 的 Discriminant 按 钮 ， 则 会 生成 样本 投影 图 ， 并 用 数字 标明 每 个 样本 所 属 类 别 ， 如 图 11-51 所 示 。 


Number of clusters: 10 42 Runs: 13 B Re-Scale 


[ ] Use HClust Centers Iterate Clusters [Stats Plots: 


图 11-50 ”打印 出 前 五 个 数值 变量 的 散 点 图 矩阵 


MinTemp 


10 20 30 


5 10 14 


2 


0 10 20 0 4 8 172 


Rattle 2016-— H-03 15:00:49 Think 


b) 


图 11-50 (4) 


Discriminant Coordinates weather.csv 


图 11-51 样本 投影 图 


将 mtcars 数 据 集 通 过 Data 选 项 导入 Rattle 中 ， 选 择 Hierarchical 选 项 ， 单 击 “ 执 行 ”按钮 生成 层次 聚 类 模型 ， 如 图 11-52 所 示 。 


Q2 R Data Miner - [Rattle (mtcars)] 

Project Tool Settings Heb 

;e|0 B HH 日 4 0 a| 
2 执行 新 建 ”打开 保存 | Report Expot | 停止 退出 
Datz | Explore | Test | Transform| Cluster | Associate | Mode | Evaluate | Log. 
Type: © KMeans © Ewkm| @ Hierarchical} (5 BiCluster 


Build Options: Distance: euclidean m Agglomerate: ward 图 Number of Processors: |1 5 


Q) Rattle 000 3.4.1 togaware.corr. 


Cluster Options: Number of clusters: 10 E | | 


Hierachical Cluster 


Call: 
hclusterpar(x = na.omit(crs$dataset[crsSsample, crs$numeric]), 


method = "euclidean", link = "w 
Cluster method : ward 

Distance : euclidean 

Number of objects: 22 


Time taken: 0.00 secs 


图 11-52 ”对 mtcars 数 据 集 生成 层次 聚 类 模型 


可 以 单 击 Data Plot 按 钮 生成 数值 变量 的 散 点 图 和 矩阵， 单 击 Disciminant Plot 按 钮 生成 投影 图 ， 也 可 以 单 击 Dendrogram 按 钮 生成 系统 聚 类 树 图 ， 如 图 11-53 所 示 。 


Cluster Dendrogram mtcars 

Rattle 2016 二 月 03 15:49:55 Think 
Hornet Sportabout - 
Pontiac Firebird - 
Duster 360 - 
Camaro Z28 - 
Maserati Bora - 
Lincoln Continental - 
Cadillac Fleetwood - 
Chrysler Imperial - 
Dodge Challenger - 
AMC Javelin - 
Hornet 4 Drive - 
Mazda RX4 Wag - 
Merc 280C - 
Ferrari Dino - 
Porsche 914-2 - 
Toyota Corona - 
Volvo 142E - 
Merc 230- 
Merc 240D - 
Toyota Corolla - 
Fiat 128 - 


Honda Civic - 


Observation 


0 500 1000 1500 2000 
Height 


图 11-53 ”生成 系统 聚 类 树 图 

11.5.2 ”关联 规则 

关联 规则 (association rule) 是 在 数据 库 和 数据 挖掘 领域 中 被 发 明 并 广泛 研究 的 一 种 重要 模型 。 关 联 规 则 数据 挖掘 的 主要 目的 是 找 出 数据 集中 的 频繁 模式 ， 即 多 次 重复 出 现 的 模式 和 并 发 关系 。 

在 众多 的 关联 规则 数据 挖掘 算法 中 ， 最 著名 的 就 是 Apriori 算 法 ， 该 算法 具体 分 为 以 下 两 步 进行 : 

1) 生成 所 有 频繁 项 目 集 (frequent itemset) 。 一 个 频繁 项 目 集 是 一 个 支持 度 高 于 最 小 支持 度 阅 值 (min-sup) 的 项 目 集 。 

2) 从 频繁 项 目 集中 生成 所 有 的 可 信 关 联 规 则 。 这 里 可 信 关 联 规则 是 指 置信 度 大 于 最 小 置信 度 阔 值 (min-conf) 的 规则 。 

Rattle 中 的 Associate 选 项 可 以 实现 著名 的 Apriori 算 法 。 默 认 最 小 支持 度 阔 值 (min-sup) 是 0.100， 最 小 置信 度 阔 值 (min-conf) 是 0.100， 每 个 项 集 所 含 项 数 的 最 小 值 是 2， 我 们 可 以 根据 实际 情况 进 
行 调整 参数 设置 ， 如 图 11-54 所 示 。 

Q R Data Miner - [Rattle] 
Project Tools Settings Help 


d? De g E «X eG qg 
执行 |^ 新 建 ” 打 开 — GMT | Report Export — 停止 BH 


Datz | Explore | Test | Transforrr | Gustel| Associate] Mode | Evaluate | Log 


0.1000 & Confidence: 0.1000 $ Min Length: 


sort br: Suspen. [s] 


图 11-54 Rattle 中 的 关联 规则 算法 


将 rattle 包 自 带 的 dvdtrans.csv 数 据 集 导 入 Rattle， 并 把 Item 变量 设置 为 Target， 如 图 11-55 所 示 。 


DatajExplore|Test Transform Cluster|Associate|Model Evaluateltogl 


Source: ( Spreadsheet © ARFF © ODBC © RDataset C RDatarile C Library © Corpus © Script 


Filename: Separator: |, | Decimal 图 X. Header 


O Partition [70/15/15 |seed:| [42 sj View. Edit: 


a Target Data Type 
Qro ionore weight Calculator: |__| | @ Auto © Categoric O Numeric C survival | 


No. Variable Data Type input Target Risk ident ignore Weight Comment 
Numeric 


图 11-55 “导入 dvdtrans 数 据 集 ， 并 将 Item 设 置 为 Tatget 


参数 按照 默认 设置 ， 对 dvdtrans 数 据 建 立 关联 规则 ， 结 果 如 图 11-56 所 示 。 


Em--— Nm 


Summary of the Transactions: 


Length Class 
10 transactions S4 


Summary of the Apriori Association Rules: 


Number of Rules: 117 


Summary of the Measures of Interestingness: 


support confidence lift 
Min. zÜ. Min. :0.1429 Min. : 
1st Qu.:0 1st Qu.:0.5000 1st Qu.: 
Median :0 Median :1.0000 Median : 
Mean :0. Mean :0.7980 Mean : 
3rd Qua. :0 3rd Qu.:1.0000 3rd Qu.: 
Max. :0 Max. :1.0000 Max. 


E]11-56 ”选择 Baskets 选 项 ， 生 成 关联 规则 
一 共生 成 117 条 规则 ， 同 时 给 出 了 支持 度 、 置 信 度 和 提升 度 的 最 小 值 、 第 一 四 分 位 数 、 中 位 数 、 均 值 、 第 三 四 分 位 数 和 最 大 值 等 重要 信息 。 


可 以 单 击 Show Rules 按 钮 ， 输 出 生成 的 关联 规 则 ， 默 认 按照 支持 度 进行 降序 排序 ， 可 以 在 Sort by 下 拉 列 表 框 中 选择 置信 度 或 提升 度 排序 方式 ， 如 图 11-57 所 示 。 


(Patriot) 
(Gladiator) 
(Sixth Sense) 
(Gladiator) 
(Patriot) 
(Sixth Sense) 
(Patriot, 
Sixth Sense) 
(Gladiator, 
Patriot) 
(Gladiator, 
Sixth Sense) 
(LOTR1) 
(LOTR2) 
(Green Mile) 
(Sixth Sense) 


(Harry Potter2] 
(Harry Potter1) 


{Braveheart} 


通过 单 击 Freq Plot 按 钮 ， 可 以 生成 商品 的 交易 


(Sixth Sense) 
(Sixth Sense) 
(Patriot) 


(Gladiator) 


(Sixth Sense) 


(Patriot) 
(LOTR2) 
(LOTR1) 
(Sixth Sense) 
(Green Mile) 


(Harry Potter1) 
(Harry Potter2) 


(Patriot) 


频率 图 ， 如 图 1 1 -58 所 示 。 


Oooo000050 


PN ND m 55 


confidence 


1.0000000 
0.8571429 
0.8333333 
0.7142857 
0.6666667 
0.6666667 


1.0000000 


0.6666667 


0.8000000 
1.0000000 
1.0000000 
1.0000000 
0.3333333 
1.0000000 
0.5000000 
1.0000000 


lift 
1.4285714 
1.4285714 
1.1904762 
1.1904762 
1.1111111 
1.1111111 


1.4285714 


1.12111111 


1.3333333 
5.0000000 
5.0000000 
1.6666667 
1.6666667 
5.0000000 
5.0000000 
1.6666667 


图 11-57 按照 支持 度 降序 输出 关联 规则 
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图 11-58 生成 商品 频率 图 


通过 单 击 Plot 按 钮 ， 可 以 调用 arulesViz 包 对 关联 规则 进行 可 视 化 ， 如 图 11-59 所 示 。 


Graph for 117 rules 
size: support (0.1 - 0.6) 


color: lift (0.714 - 10) 
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图 11-59 ”关联 规则 可 视 化 


圆 的 大 小 代表 支持 度 ， 颜 色 代表 提升 度 ， 圆 越 大 表示 左 项 与 右 项 间 的 支持 度 越 高 ， 颜 色 越 深 表示 左 项 与 右 项 间 的 提升 度 越 高 。 


11.5.3 ”决策 树 

决策 树 (decision tree) 是 一 种 非常 成 熟 、 普 遍 采 用 的 数据 挖掘 技术 。 决 策 树 是 一 棵 树 状 结构 ， 它 的 每 一 个 叶 结 点 对 应 着 一 个 分 类 ， 非 叶 结 点 对 应 着 某 个 属性 上 的 划分 ， 根 据 样 本 在 该 属性 上 的 不 同 取 
值 将 其 划分 成 若干 个 子 集 。 对 于 非 纯 的 叶 结 点 ， 多 数 类 的 标号 给 出 到 达 这 个 结 点 的 样本 所 属 的 类 。 构 建 决策 树 的 核心 问题 是 在 每 一 步 如 何 选择 适当 的 属性 对 样本 进行 拆 分 。 对 一 个 分 类 问题 ， 从 已 知 类 标记 
的 训练 样本 中 学 习 并 构建 出 决策 树 是 一 个 自 上 而 下 、 分 而 治之 的 过 程 。 


决策 树 方法 在 


自分 类 、 预 测 、 规 则 提取 等 领域 有 着 广泛 应 用 ， 主 要 原因 在 于 决策 树 的 构造 不 需要 任何 领域 的 知识 ， 很 适合 探索 式 的 知识 发 现 ， 并 且 可 以 处 理 高 维度 的 数据 。 另 外 ， 决 策 树 对 数据 分 布 甚至 
缺失 非常 宽容 ， 不 容易 


受到 极 值 的 影响 。 
我 们 可 以 通过 Rattle 的 Tree 按钮 实现 决策 树 建 模 ， 它 是 基于 rpart 算 法 包 中 的 rpart 函 数 实 现 的 ， 如 图 11-60 所 示 。 


利用 weather 数 据 集 进 行 决策 树 建 模 ， 结 果 如 图 11-61 所 示 。 


Type[ © Tree]@ Forest © Boost © SVM © Linear © Neural Net © XXXX © All 
No Target Algorithm: 图 Traditional © Conditional Model Builder: rpart 


Min Split: 20 2| MaxDepth: |20 $ Priors: | | Include Missing 
Min Bucket: — |7 2| Complexity: ^ |0.0100 É| Loss Matrix: NEN 


图 11-60 ”Rattle 实 现 决 策 树 建 模 


D Se B aa E o - 
uu B MR 停止 。 退出 


一 


Type:[@ Tree] © Forest © Boost © SVM © Linear ®© Neural Net XXXX ®© All 
Target: RainTomorrow Algorithm: 图 Traditional © Conditional Model Builder: rpart 


Min Split: 20 z Max Depth: 30 z Priors: EE Include Missing 
Min Bucket: 7 9 Complexity: 0.0100 z Loss Matrix: | | 


Summary of the Decision Tree model for XXXX (built using 'rpart'): 


split, n, loss, yval, (yprob) 
* denotes terminal node 


1) root 256 41 No (0.83984375 0.16015625) 
2) Pressure3pm»-1011.9 204 16 No (0.92156863 0.07843137) 
4) Cloud3pm« 7.5 195 10 No (0.94871795 0.05128205) * 
5) Cloud3pm»-7.5 9 3 Yes (0.33333333 0.66666667) * 
3) Pressure3pm« 1011.9 52 25 No (0.51923077 0.48076923) 
6) Sunshine»-8.85 25 5 No (0.80000000 0.20000000) * 
7) Sunshine« 8.85 27 7 Yes (0.25925926 0.74074074) * 


图 11-61 对 weathet 训 练 集 数据 建立 决策 树 预测 模型 


第 一 部 分 结果 中 ，“n=256” 表 明 训 练 集中 的 数据 为 256 个 样本 数 ，“*” 号 表明 该 结 点 是 叶 结 点 ， 该 模型 共有 4 个 叶 结 点 。 例 如 : 


2) Pressure3pm>=1011.9 204 16 No (0.92156863 0.07843137) 


上 述 语句 的 含义 是 : 结 点 号 为 2 (node) ， 结 点 分 支 条 件 是 “Pressure3pm> =1011.9” (2348) ， 此 时 包含 样本 204， 这 个 结 点 分 类 为 No， 有 16 个 样本 被 误 分 类 ， 这 表示 有 92% 的 可 能 明天 不 会 下 
SEP 该 结 点 并 非 叶 结 点 (无 号 ) o 


第 二 部 分 给 出 了 用 于 构建 决策 树 的 命令 


Classification tree: 

rpart (formula = RainTomorrow ~ ., data = crs$dataset [crsS$train, 
c(crsSinput, crsS$target)], method = "class", parms = list(split = "information"), 
control = rpart.control(usesurrogate = 0, maxsurrogate = 0)) 


三 部 分 给 出 了 构建 决策 树 的 分 裂变 量 。 


Variables actually used in tree construction: 
[1] Cloua3pm Pressure3pm Sunshine 


第 四 部 分 给 出 了 根 结 点 的 错误 率 。 


Root node error: 41/256 = 0.16016 


第 五 部 分 给 出 了 每 次 分 裂 后 CP 的 综合 详情 。nsplit 是 分 裂 次 数 ，xerror 是 通过 交叉 验证 获得 的 模型 误差 ，xstd 是 模型 误差 的 标准 差 。 


CP nsplit relerror xerror xstd 


1 0.158537 0 1.00000 1.00000 0.14312 
2 0.073171 2 0.68293 0.80488 0.13077 
3 0.010000 3 0.60976 0.97561 0.14169 


单 击 Draw 按 钮 ， 可 以 生成 决策 树 图 ， 如 图 11-62 所 示 。 


Decision Tree weather.csv $ Rain Tomorrow 


图 11-62 ”生成 决策 树 图 


11.5.4 ”随机 森林 


随机 森林 (random forest) 算法 的 实质 是 基于 决策 树 的 分 类 器 集成 算法 ， 其 中 每 棵 树 都 是 基于 随机 样本 的 一 个 独立 集合 值 产 生 的 。 


随机 森林 在 运算 量 没有 显著 提高 的 前 提 下 提高 了 预测 精度 。 随 机 森林 对 多 元 共 线 性 不 敏感 ， 结 果 对 缺失 数据 和 非 平衡 的 数据 比较 稳健 ,可 以 很 好 地 预测 多 达 几 干 个 解释 变量 的 作用 ， 被 誉 为 当前 较 好 的 
算法 之 一 。 


我 们 可 以 通过 Rattle 的 Forest 按 钮 实现 随机 森林 建 模 ， 它 是 基于 随机 森林 算法 包 中 的 randomForest 函 数 实 现 的 。 以 weather 数 据 集 为 例 建立 随机 森林 ， 结 果 如 图 11-63 所 示 。 


如 图 11-63 所 示 ， 首 先 给 出 的 是 建 模 命令 。 


lel D 8 E <4 o q4 
| sur | 新 建 ”打开 — GR | Report Export | 停止 ”退出 
| Datz | Explore | Test | Transform | Cluster | Associate Evaluate | Log 


© Forest| © Boost © SVM © Linear €) Neural Net XXXX €) All 
Target: RainTomorrow — Algorithm: Traditional © Conditional Model Builder: randomForest 


Number of Trees: |500 S Sample Size: | mm 8 
Number of Variables: |4 [V] Impute 


Summary of the Random Forest Model 


Number of observations used to build the model: 256 
Missing value imputation is active. 


Call: 
randomForest(formula - RainTomorrow - ., 
data = crsSdataset[crsSsample, c(crsSinput, crsStarget)], 
ntree — 500, mtry = 4, importance - TRUE, replace - FALSE, na.action - na.roughfix) 


Type of random forest: classification 
Number of trees: 500 
No. of variables tried at each split: 4 


图 11-63 ”利用 weathet 训 练 集 建立 随机 森林 


接 下 来 ， 给 出 一 个 误差 率 的 OOB 佑 计 及 基于 OOB 的 分 类 和 矩 阵 。OOB 是 英文 Out Of Bag 的 缩写 ， 由 于 每 棵 树 都 由 自助 法 抽样 得 来 ， 抽 样 是 放 回 抽样 ， 这 样 每 次 约 有 1/3 的 数据 没有 被 抽 到 ， 这 些 观 测 值 
数据 被 称 为 OOB 数 据 (口袋 外 面 的 数据 ) 。 


OOB estimate of error rate: 14.45% 
Confusion matrix: 
No Yes class.error 
No 205 10 0.04651163 
Yes 27 14 0.65853659 


由 上 可 知 误差 率 的 OOB 估 计 (OOB estimate of error rate) 是 14.45%， 也 即 ， 它 的 准确 率 是 85.55%， 这 是 一 个 非常 不 错 的 模型 。 在 基于 OOB 的 混淆 矩阵 中 ， 行 表示 实际 值 ， 列 表示 预测 值 ， 因 此 ， 
有 27 个 预测 值 是 Yes 的 数目 中 实际 值 是 No。 


可 以 单 击 OOB ROC 按 钮 ， 生 成 OOB ROC 曲 线 ， 如 图 11-64 所 示 。 同 时 给 出 了 各 变量 重要 性 的 度量 ，MeanDecreaseAccuracy 是 从 精确 度 来 衡量 变量 重要 性 的 ，MeanDecreaseGini 则 是 从 Gini 指 数 来 
衡量 变量 重要 性 的 。 默 认 按 照 精确 度 由 大 到 小 排序 ， 越 靠 前 的 变量 越 重要 ， 如 下 所 示 : 


Variable Importance 


NO Yes MeanDecreaseAccuracy MeanDecreaseGini 
Pressure3pm 11.68 9.83 13.57 4.40 
Cloud3pm 11.56 8.06 3425 3.06 
Sunshine 12.02 5.80 2.89 3.99 
WindGustSpeed 7.19 54 71 8.80 2.47 
Temp3pm T13 -3.00 6.88 1,557 
Humidity3pm 6.96 0.44 6.43 2449s 
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图 11-64 OOB ROC UH AX 


可 以 单 击 Importance 按 钮 ， 对 各 变量 重要 性 进行 可 视 化 ， 如 图 11-65 所 示 。 


可 以 生成 每 棵 树 的 OOB 及 因 变 量 为 Yes、No 时 的 误差 率 ， 如 图 11-66 所 示 。 


单 击 Errors 按 钮 ， 


的 读者 可 以 自行 去 了 解 。 


兴趣 


、 人 工 神 经 网 络 (Neural Net) 和 生存 分 析 (Survival) , Æ 


IOS N 


、 线 性 回归 (Linear) 


、 支 持 向 量 机 (SVM) 


Rattle 还 能 实现 基于 决策 树 的 组 合 方法 (Boost) 


Variable Importance Random Forest weather.csv 


Pressure3pm Pressure3pm 
Cloud3pm Sunshine 
Sunshine WindDir9am 
WindGustSpeed Pressure9am 
Temp3pm Cloun3pm 
Humidity3pm WindGustDir 
Pressure9am WindDir3pm 
MaxTemp WindGustSpeed 
Temp9am Humidity3pm 
WindGustDir MinTemp 
WindS peed9am MaxTemp 
MinTemp Temp9am 
Cloud9am Cloud9am 
Evaporation Temp3pm 
WindDir3pm Humidity9am 
WindS peed9am 
Evaporation 
WindSpeed3pm 
Rainfall 
Rainfall [C RainToday 


0 4 8 12 2 3 
MeanDecreaseAccurac MeanDecreaseGini 


图 11-65 “变量 的 相对 重要 性 


Error Rates Random Forest weather.csv 
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11.6 ”模型 评估 


11.6.1 RA 
{Rattle}, EvaluateBJEAiA TEST ERSEIBABEER, TERME "HW" RRRA EASE, TURSBNIETZSISRULPESHURSSXEEE. 
该 矩阵 主要 用 于 比较 模型 预测 值 同 实际 值 之 间 的 差别 ， 这 有 利于 我 们 根据 实际 需求 去 调整 相应 的 模型 。 


利用 rattle 包 中 的 审计 数据 集 audit 中 的 70% 数 据 生成 决策 树 模型 ， 并 对 test 数 据 集 建 立 混 消 矩阵， 如 图 11-67 所 示 。 


Model: Tree | | Boost| | Forest| | SVM | | Linear| | Neural Net| | XXXX| | KMeans | | HClust 


Data: © Training © Validation ® Testing |^ Full Enter © CSV File ($ Docu... m (5 R Dataset | | 


Report: & Class © Probability Indude: 图 Identifiers All 


Risk Variable: RISK Adjustment 


Error matrix for the Decision Tree model on audit.csv [test] (counts): ^ 


Predicted 
Actual 0 1 

0 216 19 

A 39 Ja 


Error matrix for the Decision Tree model on audit.csv [test] (proportions): 


Predicted 

Actual 0 1 Error 
0 0.72 0.06 0.08 
1 0.11 0.11 0.51 


图 11-67 fjJauditZk 4E x& zz Xe d, testih ZR XE 3:78 4E IF 
混淆 矩阵 中 的 行 表示 实际 值 ， 列 表示 预测 值 ， 其 中 第 一 个 矩阵 中 的 数据 表示 样本 的 个 数 ， 另 一 个 矩阵 中 的 数据 则 代表 该 类 别 样 本 占 总 样本 的 比例 。 根 据 图 11-67 所 示 ， 有 19 个 样本 实际 类 别 是 0， 被 误 预 


测 为 1， 占 比 是 0.06 (19/ (216+19+33+32) ) ， 误 差 率 是 0.08 (19/ (216+19) ) ; 有 33 个 样本 实际 类 别 是 1， 却 被 误 预 测 为 0， 占 比 是 0.11， 误 差 率 是 0.51。 


11.6.2 ”风险 图 
模型 风险 图 通常 也 被 称 为 累计 增益 图 ， 该 图 像 主要 提供 了 二 分 类 模型 评估 中 的 另 一 种 透视 图 ， 该 图 像 可 以 通过 Evaluate 界 面 中 的 Risk 选 项 直接 生成 而 得 到 。 
我 们 继续 用 刚才 利用 审计 数据 集 建立 的 决策 树 模 型 ， 对 测试 集 数据 建立 风险 图 ， 如 图 11-68 所 示 。 


假设 我 们 每 年 将 会 对 100000 人 进行 审计 ， 根 据 风险 图 中 所 示 ， 那 么 就 会 有 22000 人 需要 对 它们 各 自 的 纳税 申报 进行 调整 。 我 们 将 这 个 比率 (2296) 称 为 风险 率 (strike rate) 。 


Risk Chart Decision Tree audit.csv [test] TARGET Adjusted 
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图 11-68 利用 aduit 数 据 建立 决策 树 ， 对 test 数 据 集 所 建立 的 风险 图 


11.6.3” ROC 图 及 相关 图 表 

模型 的 ROC 图 像 同 样 是 一 种 比较 常见 的 用 于 数据 挖掘 的 模型 评估 图 。 此 外 ， 与 ROC 图 像 相 类 似 的 图 像 还 有 灵敏 度 与 特异 性 图 像 、 增 益 图 、 精 确 度 与 敏感 度 图 像 ， 不 过 在 这 些 图 形 中 ，ROC 图 像 是 使 用 最 
广泛 的 。 

模型 的 ROC 图 、 精 确 度 与 灵敏 度 图 、 敏 感度 与 特异 性 图 、 增 益 图 分 别 如 图 11-69~ 图 11-72 所 示 。 


ROC Curve Decision Tree audit. 
csv [test] TARGET Adjusted 
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图 11-69 ROCH 
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Precision/Recall Plot audit.csv 


Recall 


图 11-70 4555254 8 RA 


sensitivity/Specificity (tpr/tnr) audit.csv 
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图 11-71 灵敏度 与 特异 性 图 
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图 11-72 ”增益 图 


11.6.4 “模型 得 分 数据 集 
在 Evaluate 界 面 中 ，Rattle 提 供 了 一 个 得 分 数据 集 的 按钮 。 


该 按钮 的 主要 作用 是 让 我 们 能 够 将 模型 分 析 预 测 结果 保存 为 文件 的 形式 ， 以 便 我 们 能 够 对 模型 结果 进行 更 多 的 分 析 活 动 ， 而 不 仅 仪 是 跑 一 遍 数 据 生成 一 个 模型 那么 简单 ; 会 根据 我 们 所 选择 的 数据 利用 
模型 进行 预测 ， 并 将 预测 结果 以 CSV 文 件 的 格式 保存 。 


我 们 需要 利用 决策 树 生成 的 模型 对 测试 数据 集 进行 预测 ，Type 选 择 Score，Data 选 择 Testing， 如 图 11-73 所 示 。 
Datz | Explore | Test | Transform | Cluster | Associate | Mode | Evaluate 
ype: © Error Matrix © Risk © Cost Curve © Hand © Lift © ROC © Precision © Sensitivity © Pr v Ob| @ Score | 


odel: Tree Boost | | Forest SVM Linear Neural Net |_| XXXX| | KMeans| | HClust 


-- . . 一 人 . . AR . AR A8 AES . S T TN | 
Data: © Training © Validatiod 图 Testing| © Full © Enter © CSV File | . || © R Dataset | | w | 


isk Variable: RISK Adjustment Report: & Class © Probability  Indude: @ Identifiers © All 


图 11-73 ”对 测试 集 数据 计算 得 分 


单 击 “ 执 行 ”按钮 后 ， 会 跳出 文件 保存 名 称 和 保存 路 径 的 对 话 框 ， 如 图 11-74 所 示 。 


图 11-74 得 分 文件 的 保存 设置 


保存 到 本 地 的 文件 包含 3 列 ， 第 一 列 是 样本 的 ID， 第 二 列 是 因 变 量 的 实际 值 ， 第 三 列 是 决策 树 模型 的 预测 结果 ， 如 图 11-75 所 示 。 
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本 章 详细 介绍 的 安装 及 使 用 方法 ， 并 且 分 


操作 的 R 代 码 ， 利 用 


TARGET Adjusted rpart | 


别 展示 了 数据 导入 、 数 据 探索 、 数 据 建 模 和 模型 
这 个 标签 ， 可 以 学 习 R 的 数据 挖 气 过程， 也 可 以 把 纪录 以 文本 形式 输出 ， 在 R 平 台中 实 


sl 
C 


平 估 在 Rattle 中 的 实现 过 程 。Rattle 的 数据 挖掘 过 程 会 在 Log 中 记录 下 来 ， 它 可 以 给 出 所 进行 的 Rattle 
DRattle 的 交互 。 通 过 对 本 章 的 学 习 ， 可 在 以 后 的 数据 挖掘 过 程 中 采用 适当 的 算法 并 按 所 陈述 的 


11.8 上 机 实验 


1. 实 验 目 的 
" 了 解 Rattle 的 安装 及 使 用 方法 ， 熟 悉 基 本 的 操作 过 程 。 

2. 实 验 内 容 

依据 本 章 Rattle 的 安装 方法 ， 在 计算 机 上 安装 Rattle， 并 使 用 Rattle 实 现 建 模 过 程 。 
完成 Rattle 的 安装 ， 并 通过 命令 打开 Rattle 工 具 的 图 形 界面 。 


- 使 用 Rattle 工 具 建 立 客户 流失 模型 ， 数 据 见 “data/Telephone.csv”。 对 数据 的 总 体 概况 进行 探索 ， 熟 悉数 据 探 索 的 过 程 。 选 择 合适 的 变量 构建 模型 并 对 模型 进行 评估 。 


3 实验 方法 与 步骤 
实验 一 


1) 打开 R， 安 装 rattle 包 . 

2) 通过 library 命 令 加 载 rattle 包 ， 打 开 Rattle 工 具 的 图 形 界面 。 

3) 熟悉 Rattle 工 具 的 操作 界面 ， 掌 握 查 看 日 志 的 方法 。 

实验 二 

1) 打开 Rattle 工 具 的 图 形 界面 。 

2) 导入 数据 “data/Telephone.csv”， 并 将 数据 按照 70 : 15: 15 的 比例 分 成 训练 集 、 验 证 集 和 测试 集 。 
3) 单 击 Explore 按 钮 ， 开 始 对 数据 进行 探索 。 完 成 描述 性 统计 分 析 、 图 形 探索 等 操作 。 

4) 在 选项 Data 中 选择 合适 的 变量 构建 模型 。 

5) 在 选项 Model 中 选择 合适 的 分 类 模型 ， 并 对 模型 进行 评估 。 

4. 思 考 与 实验 总 结 


对 于 一 个 新 的 未 知 的 数据 集 ， 可 以 从 哪些 方面 实现 对 数据 的 探索 ? 
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